中央民族大学本科生研究训练计划立项.docx
- 文档编号:14453464
- 上传时间:2023-06-23
- 格式:DOCX
- 页数:33
- 大小:319.32KB
中央民族大学本科生研究训练计划立项.docx
《中央民族大学本科生研究训练计划立项.docx》由会员分享,可在线阅读,更多相关《中央民族大学本科生研究训练计划立项.docx(33页珍藏版)》请在冰点文库上搜索。
中央民族大学本科生研究训练计划立项
中央民族大学本科生研究训练计划立项
申请书
基于立体视觉的
自动跟随智能购物车的设计与实现
DesignandImplementationofIntelligentShoppingCartwithAutomaticTrackingbasedonStereoVisionTechnique
团队成员:
覃姝缘陈彦晓张隆基
学院:
信息工程学院
专业:
电子信息工程
中央民族大学本科生研究训练计划立项申请书
基于立体视觉的自动跟随智能购物车的设计与实现
目录
一、立项依据3
1项目研究背景及意义3
2国内外现状4
2.1.视觉平台4
2.2.运动目标检测与跟踪4
2.3.双目视觉5
3学术价值及应用价值6
4团队及成员优势6
二、研究目标、内容、关键问题和主要特色7
1研究目标7
2研究内容7
2.1.功能组成7
2.2.工作原理8
3主要特色及创新点16
4有待解决的问题16
4.1.建立一体化双目视觉平台的系统体系结构16
4.2.双目协调机制研究17
三、预期效果与具体成果17
1自动跟随17
2罗列清单17
3测重17
4识别打折信息17
5记账18
四、具体安排及进度18
五、经费预算19
参考文献20
附件22
一、立项依据
1项目研究背景及意义
随着人民生活水平不断提高,为满足广大消费者购物需求,各种连锁超市应运而生,超市购物越来越受到广大消费者青睐。
但在购物过程中,特别是在规模大、品种多的大型综合超市中,手推式购物车使顾客感到疲惫,另外,顾客时常找不到所需购买物品的位置、无法及时了解超市商品打折信息,这些浪费了顾客的宝贵时间,扰乱了他们的购物心情,从而一定程度上影响超市营业额。
另外,收银台结帐时的排队问题,特别是周六、日或者节假日,收银台处的长龙着实让顾客望而却步。
那么,有无一种设备能够减少结账时的冗繁环节,同时能为顾客提供打折信息和自动导航呢?
本小组成员在进行了多方面调研(见附件),并与导师深入交流之后,发现将仿生人眼的双目视觉系统应用在超市智能购物车中能够一定程度上有效地解决上述问题。
在小组成员共同努力和导师的帮助下,通过认真思考,对基于双目视觉系统的自动跟随智能购物车进行了可行性分析,该车除了能够实现自动跟随购物者外,还能自动识别打折信息,并通过语音和显示屏告知购物者,购物者可查看购物清单和物品金额、同时能够测量所购物品的重量,人性化地提醒购物者注意物品轻重。
其简单的结构和低廉的成本将会受到购物者和超市的青睐。
双目立体视觉(BinocularStereoVision)是机器视觉的一种重要形式,它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像,通过计算图像对应点间的位置偏差,来获取物体三维几何信息。
融合两只眼睛获得的图像并观察它们之间的差别,使我们可以获得明显的深度感,建立特征间的对应关系,将同一空间物理点在不同图像中的映像点对应起来,这个差别,我们称作视差(Disparity)图像,如图
图1.视差图像
Fig1.DisparityImage
双目立体视觉的开创性工作始于上世纪的60年代中期。
美国MIT的Roberts通过从数字图像中提取立方体、楔形体和棱柱体等简单规则多面体的三维结构,并对物体的形状和空间关系进行描述,把过去的简单二维图像分析推广到了复杂的三维场景,标志着立体视觉技术的诞生。
随着研究的深入,研究的范围从边缘、
角点等特征的提取,线条、平面、曲面等几何要素的分析,直到对图像明暗、纹理、运动和成像几何等进行分析,并建立起各种数据结构和推理规则。
特别是上世纪80年代初,Marr首次将图像处理、心理物理学、神经生理学和临床精神病学的研究成果从信息处理的角度进行概括,创立了视觉计算理论框架[1]。
2国内外现状
2.1.视觉平台
1997年美国国防部高级研究项目署(DARPA)设立了以卡内基梅隆大学为首,麻省理工学院等高校参与的视觉监控项目VSAM(Visualsurveillanceandmonitoring)[2],该系统能够用于普通民用场景以及战场的实时监控,卡内基梅隆大学在该系统建成之后,建立了一个校园监控系统。
PASSWORDS(Parallelandadvancedsurveillancesystemwithoperatorassistanceforrevealingdangeroussituations)[3]系统是一个智能视频图像分析系统,用于实现视频监视以满足不同用户的安全要求。
Pfinder(Personfinder)[4]系统用于实现对室内人员行为的实时监视与判定。
此外,还有许多用于交通、军事等领域的智能监控平台。
如Coifman等人[5]建立了一个基于视频图像处理系统(Videoimageprocessingsystem,VIPS)的交通监控系统,用于交通流量监控以及不同车型的统计。
2.2.运动目标检测与跟踪
运动目标检测的算法依照目标与摄像机之间的关系可以分为静态背景下运动检测和动态背景下运动检测。
静态背景下运动检测就是摄像机在整个监视过程中不发生移动,只有被监视目标在摄像机视场内运动,这个过程只有目标相对于摄像机的运动;动态背景下运动检测就是摄像机在整个监视过程中发生了移动(如平动、旋转或多自由度运动),被监视目标在摄像机视场内也发生了运动,这个过程就产生了目标与摄像机之间复杂的相对运动。
已有常用算有[6]:
相邻帧差法(TemporalDifference),背景差分法(BackgroundSubtraction),光流法(OpticalFlow)。
目前,许多研究者都针对于运动检测困难中的某些方面(如剔除阴影、排除光照干扰等)提出了自己的解决方案,尽管已经有一些较成熟的方法可以实现目标检测的任务,但是不可否认的是目前仍然没有一种方法可以广泛地应用于各类目标检测的任务中,同时也没有一种方法可以保证有百分之百的检测率。
这说明仍有许多如摄像机抖动、背景噪声、目标遮挡、光照变化、特殊场景检测、计算机硬件支持等问题需要解决。
视觉跟踪(Visualtracking)问题是计算机视觉领域中的一个重要问题。
视觉跟踪[7-14],就是指对图像序列中的运动目标进行检测,提取、识别和跟踪,获得运动目标的运动参数,如位置、速度、加速度等,以及运动轨迹,从而进行进一步处理与分析,实现对运动目标的行为理解,以完成更高一级的任务。
有文献对运动图像分析算法进行了总结[11],将算法分为两类,一类是基于光流法的分析,另一类是基于特征点的分析。
此后在视觉跟踪领域中,又出现了许多新的方法,最新文献将视觉跟踪方法分为四类,分别是基于区域的跟踪、基于特征的跟踪、基于变形模板的跟踪和基于模型的跟踪,这种分类方法概括了目前大多数视觉跟踪算法。
视觉跟踪领域仍然面临不少难点问题。
从控制的观点来看[15],视觉跟踪问题所面临的主要难点可以归结为对视觉跟踪算法在三个方面的要求,即对算法的鲁棒性、准确性和快速性要求。
此外,视觉跟踪技术所面临的更为一般的难题是:
如何从图像序列中实现有效的图像分割和图像对应。
图像分割问题目前尚未得到有效解决,而图像对应问题则是与模式识别紧密相连的人工智能难题。
可见,实现一个具有鲁棒性、准确性和快速性的视觉跟踪系统还需要许多方面的努力。
2.3.双目视觉
双目视觉[2-4,16-20]是计算机视觉的一个重要分支,是研究如何利用二维投影图像恢复三维景物世界,即由不同位置的两台或者一台摄像机经过移动或旋转拍摄同一副场景,通过计算空间点的两幅图像中的视差,获得该点的三维坐标值。
双目视觉直接模拟人类双眼处理景物的方式,可靠简便,在许多领域均极具应用价值,如机器人导航,三维测量以及虚拟现实等。
根据匹配算法使用的约束信息的不同,立体匹配算法总体上分为局域算法和全局算法两种[16]。
局域算法利用的是对应点本身以及邻近的局部区域的约束信息,局域算法的优点是效率高,但是它对局部的一些由于遮挡和纹理单一等造成的模糊比较敏感,易造成误匹配。
全局算法利用了图像的全局约束信息,对局部图像的模糊不敏感,但是它的计算代价很高。
根据匹配基元的不同,局域算法主要分为区域匹配、特征匹配,以及相位匹配3种。
为了找到一点在另一幅图像中的对应点,区域匹配法将该点周围的一个小区域(template)同另一幅图像中的一系列小区域(searchregion)进行比较,定为匹配点。
通常,区域匹配算法的目的是获取致密的深度图,其适用于满足条件的立体视觉问题:
光源可理想化为无穷远处的点光源,场景中的物体表面为完全漫反射,图像对之间的几何畸变和辐射畸变(或不一致的程度)很小。
特征匹配是为使匹配过程满足一定抗噪能力且减少歧义性问题而提出。
一般地,用于匹配的特征应满足以下特性:
唯一性、再现性、具有物理意义。
基于特征的匹配一般含有特征提取和定位、特征描述、特征匹配三个步骤。
特征匹配具有较强的抗干扰性,而且计算量小,速度快,较易处理立体视觉中的视差不连续问题。
其不足之处首先是特征在图像中的稀疏性决定特征匹配只能得到稀疏的视差场,要获得密集的视差场需借助插值过程,而插值过程往往较为复杂。
其次,特征的提取和定位过程直接影响特征匹配结果的精确度。
相位匹配在假设两幅图像中对应点的局部相位相等的条件下,对带通滤波信号的相位信息进行处理而得到视差图。
相位匹配依据的原理为傅立叶平移原理,即信号在空间域上的平移产生频率域上成比例的相位平移,由于相位本身反映的是信号的结构信息,因此相位匹配对图像的高频噪音有很好的抑制作用,同时对几何畸变和辐射畸变有很好的抑制作用,能获得亚像素级的致密视差。
全局匹配算法一般有动态规划的算法和图切割的算法。
最常用的全局匹配算法是动态规划算法,其思想是把求解整个图像深度值的过程分解为一些子过程,从而减少算法的复杂度,动态规划的思想体现了顺序约束和连续性约束。
动态规划的优点是可以很好的处理因局部纹理单一而造成的误匹配,且算法复杂度不高,缺点是容易因局部的噪音而造成误差传播,形成条纹瑕疵。
图切割的方法可以有效地融合水平和竖直方向上的连续性约束,是目前处理效果最好的立体匹配算法,其缺点为算法的复杂度较高。
图切割的基本思想为构建一个网络,通过最小割方法寻找网络的最大流。
目前,立体匹配的研究重点关注的两个重要问题是:
遮挡问题(Occlusion)和实时性问题(Real-timeImplementation)。
遮挡会造成一个图像中的点在另一幅图像中无对应点,从而导致错误的匹配。
目前许多性能优良的算法的实时性都很差,耗时过长,在一般的硬件条件下无法应用,实时性问题是立体视觉由理论走向普及应用的一个巨大瓶颈。
随着研究的进一步深入,以及硬件性能的提高与价格的降低,相信实时性的问题会迎刃而解。
3学术价值及应用价值
近年来,视觉跟踪(visualtracking)是当前计算机视觉领域中的热点问题。
图2是中国知网关于学术关注度的统计结果,可见视觉跟踪领域的研究正处于上升的趋势。
视觉跟踪问题引起广泛关注是由于它能够应用于民用和军事的许多领域,主要包括三个方面:
视频监视,图像压缩和三维重构。
图2.视觉跟踪领域的学术关注度
Fig2.TheAcdemicalAttentionDegreeinVisualTracking
根据所使用摄像机数目的多少,可以将视觉跟踪问题分为单摄像机(Monocularcamera)视觉跟踪和多摄像机视觉跟踪(Multiplecameras)[2-7]。
目前,绝大多数研究都属于单摄像机的视觉跟踪问题,其中对于图像压缩技术而言,纯粹只考虑单摄像机获得的图像序列。
但是,在实际的视频监视系统中,单摄像机所能监视的区域很有限,因此,在一些大的公共场合,更多的是使用多摄像机以扩大监视的范围。
此外,单摄像机不能获得运动目标的距离信息,而双目或三目视觉系统却能够得到运动目标的距离信息,在对运动目标跟踪过程中,往往发生运动目标被遮挡或暂时消失等情况从而丢失运动目标,这一问题(Occlusion)[21-23]是运动目标跟踪中又一个难点问题,使用单摄像机解决这一问题相当困难,而使用多摄像机能在很大程度上解决这一难题。
但多摄像机跟踪面临一个单摄像机跟踪所没有的难题,那就是如何将不同摄像机所获得的不同视角的运动目标信息正确地对应起来,由于这一问题的难度甚至比单纯跟踪问题的难度还要大,因此有关多摄像机跟踪的文献并不是很多[21]。
本项目以双摄像机主动跟踪人体运动目标为研究主题,在单一摄像机对人体运动目标检测跟踪的基础上,提出完整的双目协调机制,实现双目主动跟踪的功能。
双目可以获得目标的深度信息,主动跟踪大大扩展了可监控的视野,提高主动跟踪的准确性和及时性。
可见,本项目的研究在具有理论意义的同时,也具有很好的实用价值。
4团队及成员优势
参与本项目研究小组的成员均来自信息工程学院电子信息工程,具备一定的专业基础知识,已完成《电子电路分析》、《模拟电子线路基础》、《数字电子线路基础》、《C++语言及其程序设计》等课程的学习,并参与导师的“仿人眼双目视觉自动跟踪系统”、“无线传感器网络数据压缩”等研究项目,多次获得“专业一等奖学金“、“专业二等奖学金”等,具备了扎实的理论知识。
另外,小组成员熟练掌握C++,Visualc++等编程技术,三人均参加过电子工艺实习和相关的社会实践,在大量的实践实习中积累了很多经验,具备较好地的实践操作和实际动手能力。
项目组搜集了大量有关基于双目视觉系统的文献资料,并紧跟其最新研究动态,具有较强的创新渴望,而且对基于双目视觉立体系统有非常浓厚的研究兴趣。
此外,指导老师为研究小组提供了较好的实验室研究环境。
基于此,项目组具有较好的条件和实验环境,为项目的完成奠定了基础。
二、研究目标、内容、关键问题和主要特色
1研究目标
设计并制作一套基于立体视觉能够自动跟随、罗列清单、导购、测重及显示播报打折信息的智能购物车。
2研究内容
2.1.功能组成
图3.功能组成
Fig3.Functionstructure
(1)自动跟随
在普通购物车前身平行安置两个摄像头,建立双目视觉立体系统,系统通过图像获取、摄像机的标定、特征点提取、立体匹配、三维重建,在购物者无佩戴任何装置的状态下实现自动跟踪、及时跟随的功能。
(2)罗列清单
在购物车边上安装一电子屏幕,当顾客购买结束时,按下指定按键,屏幕上就会自动显示出所购物品的清单,方便顾客检查是否遗漏所需物品。
(3)测重
在购物车底座上安装一测重传感器,当顾客往购物车里放物品时,屏幕上自动累计物品重量,方便老人、妇女等弱势人群,避免物品过重难以拎回家。
自动识别、显示打折信息及语音播报功能
(4)扫描到指定的二维码之后,通过电子屏以文字形式显示打折信息。
按下预先设定的信息提示键,可通过语音的形式播报。
(5)计算消费金额
通过扫描所购物品的条形码自动计算购买金钱总额。
2.2.工作原理
(1)基于双目视觉的自动跟随
1)双目视觉系统[24]
双目成像可获得同一场景的两幅不同图像,其模型可以看成是由两个单目成像模型组合而成。
图2给出双目成像的一个示意图,图中两个镜头中心的连线称为系统的基线
。
利用双目系统可以确定具有像平面坐标点P1(x1,y1)和P2(x2,y2)的世界坐标点
的坐标(x,y,z)。
图4.双目视觉示意图
Fig4.Binocularvisionschemes
图4给出双目视觉立体视觉的模型示意图。
两光心的连线
称为系统的基线。
两摄像机的焦距均为f,C1,C2别为左右摄像机的像平面。
,
为空间一点
在两像平面上的成像点。
空间点
与像点
、
的对应关系是一个三维到两维的变换。
从图2可以看到,来自物点爮的散射光通过光心,落在像平面上,这是一种从物点到像点的透视变换。
图2中P、O1、P1个共线点之间的关系为[4]:
(1)
(2)
其中,x1,y1为图的图像坐标。
由小孔成像原理及三角关系可知
(3)
(4)
由式
~式
可得
(5)
(6)
(7)
定义视差
=
-
,可得到
点的深度值
(8)
上式把物体与像平面的距离
(即3D信息中的深度)与视差d(像坐标x2和x1的差)联系起来,视差的大小与深度有关,所以视差中包含了3-
物体的空间信息。
如果视差
可以确定并且基线和焦距已知,计算
点的
坐标是很简单的。
另外
坐标确定后
点的世界坐标
和
可用(x1,y1)或(x2,y2)借助式(6)和(7)算得。
2)立体匹配
.立体匹配类型
立体匹配是双目体视中最关键、最困难的一步。
与普通的图像配准不同,立体像对之间的差异是由摄像时观察点的不同引起的,而不是由其他如景物本身的变化、运动所引起的。
根据匹配基元的不同,立体匹配可分为区域相关匹配、特征匹配和相位匹配三大类。
.基于同心圆的米字形匹配
区域相关匹配算法的实质是利用局部窗口之间灰度信息的相关程度,它在变化平缓且细节丰富的地方可以达到较高的精度。
但该算法的匹配窗大小难以选择,通常借助于窗口形状技术来改善视差不连续处的匹配;其次是计算量大、速度慢,采取由粗至精分级匹配策略能大大减少搜索空间的大小,与匹配窗大小无关的互相关运算能显著提高运算速度。
基于区域相关的匹配中存在两个主要问题:
一是适当地选取
和
;一是恰当地寻找相关准则。
窗口宽度(2w+1)的选择取决于要处理图像中提取
最重要的空间属性的能力。
在本课题中因为使用的是平行摄像机,所以只在图像的同一行中进行选取,这样加快了搜索速度。
为了减少运算量,选取了基于同心圆的米字形窗口代替常用的矩形窗口,作为相关窗口,如图4所示。
在窗口内的像素坐标如下:
水平方向:
;
垂直方向:
;
正对角线方向:
;
对角线方向:
图5.同心圆米字型窗口
Fig.5.Concentriccirclesmwordwindow
可见,米字条形窗口比矩形窗口极大地减少了运算量,运算速度更快,有利于建立正确匹配。
对于(2n+1)×(2n+1)的矩形窗口,需要计算的窗口内的像素个数为(2n+1),而对于相同人小的米字条形窗口,则只需计算(8n+1)个像素。
在具有相同计算点数的情况下,米字条形窗口将比矩形窗口覆盖更大的范围,包含更多的邻域信息,如当窗口大小为13×13时,米字条形窗口的像素点数为49,而具有相同点数的矩形窗口大小则为7×7。
但是米字形窗口匹配虽然减少了运算量,但是也失去了大量有用的信息,使匹配精确度下降。
利用同心圆的米字形匹配方法,能够在一定程度上避免了米字形算法的不利因素,使匹配准确性大大提高。
图6.匹配效果图
Fig.6Matchingeffect
图7.像素移位计算
Fig.7pixelshiftingcalculate
图像移位运算
图6表示一种在右图中搜寻与左图中某像素对应像素位置的技术。
为了获取精确的深度信息,必须达到子像素精度的匹配。
假设左图中给定像素的坐标系为(xl,yl)分别以该像素及在右图上具有同样坐标的像素为中心各自配备一假想的窗口。
接着,计算这两个窗口中图像的一致程度。
这可以用互相关,均方差之和或其他类似方法计算。
无论用哪种度量,当两个窗口包含相同特征时,图像一致性度量均应达到最大值。
随着右图窗口不断向右移动重复此过程。
在某个时刻,当滑动窗口移到中心为(xr,yl)时,它包括了与左图固定窗口基本相同的细节特征。
这时两个窗口中的图像内容大致相同,图像一致性度量达到最大值。
3)目标跟踪算法研究与实现
目标跟踪以及Meanshift算法[25]
目标跟踪的目标是确定目标在视频序列各帧中的位置,从而发现目标的运动轨迹。
到目前为止,目标跟踪算法[26]主要有点跟踪(pointtracking),核跟踪(kerneltracking),轮廓跟踪(silhouettetracking)。
点跟踪是跟踪目标上的特征点,适合于可以被表示为单个点的非常小的目标,在跟踪大目标时,就需要多个点。
核跟踪的典型做法是计算原始目标区域在不同帧上的运动,根据目标表示的不同,可以分为基于模板和密度的跟踪,基于多视角的跟踪两类。
轮廓跟踪可以提供目标轮廓形状的精确描述,主要包括形状匹配以及轮廓跟踪两种方法。
上面提到的诸多种类的跟踪算法,都有自己的优势和不足,在不同的应用场合发挥各自的作用。
其中核跟踪算法适合区域型目标的跟踪,且对遮挡情况具备较好的鲁棒性,典型的算法有Meanshift算法。
Meanshift是一种密度梯度的无参估计方法,Comaniciu和Meer[22][23]对Meanshift在图像滤波分割和跟踪中的使用都做了较早的论述。
Meanshift算法的主要优点是:
1)计算量不大,在目标区域已知的情况下完全可以做到实时跟踪;2)作为一个无参数密度估计算法,很容易作为一个模块和别的算法集成;3)采用核函数直方图建模,对边缘遮挡、目标旋转、变形和背景运动不敏感。
这些优点是我们决定选择Meanshift算法作为双目视觉平台跟踪运动目标核心模块的原因。
Meanshift的缺点包括:
1)缺乏必要的模板更新算法;2)跟踪过程中目标窗口的大小如果保存不变,当目标有尺度变化时,可能跟踪失败;3)直方图是一种比较弱的对目标特征的描述,当背景和目标的颜色分布较相似时,算法效果欠佳。
许多研究对上述的3点做了弥补,比如提出了目标窗口大小自适应的Camshift算法。
综合比较现有研究成果,选择Meanshift作为核心跟踪模块是合适的。
目标表示及相似性测度
为了描述目标,首先需要选取特征空间,并用特征空间的概率密度分布函数(pdf,probabilitydensityfunction)来表示目标。
比如可以选取目标的颜色空间的概率密度分布函数。
不失一般性,可以认为待跟踪目标(参考目标)的中心位于原点0处,后续各帧中目标(目标候选区)位于y处。
参考目标以及目标候选区均用其特征空间的概率分布函数描述,而概率分布函数从各帧的像素数据中估计得到。
为了降低计算的复杂性和成本,使用m-维直方图(如颜色直方图),从而,参考目标以及目标候选区可以分别表示为:
参考目标模型:
(9)
目标候选区模型:
(10)
正如参考文献[26]中所述,直方图并非最佳非参数密度估计,但已经满足了算法的目的。
在某个特征空间中给出了参考目标以及目标候选区的描述后,选择合适的相似性测度,以衡量目标候选区与参考目标之间的相似性。
双目视觉平台设计与实现
双目视觉系统是一个典型的机电一体化系统,涉及机械、电子、自动控制、图像处理、机器视觉、模式识别等诸多领域。
本项目将基于如图3所示的总体结构,研究双摄像机及其支架与云台机构、电机驱动控制、视频采集、视频图像处理、视频存储与播放等模块的配置与软硬件设计问题,设计并实现一个简单可靠的一体化双目视觉平台系统。
图8.视觉伺服控制结构图
Fig.8VisualservoControlStructure
●双目视觉硬件系统的建立[27]
由于图像处理的数据量大,计算复杂,数据处理相关性高,因此实时图像处理系统必须具有强大的运算能力。
本系统采用双目视觉,对数据处理的要求倍增。
在实时的应用环境中,一方面,需要提出更好的图像处理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中央 民族大学 本科生 研究 训练 计划 立项