基于视觉的人体运动综述译文.docx
- 文档编号:1258118
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:86
- 大小:91.54KB
基于视觉的人体运动综述译文.docx
《基于视觉的人体运动综述译文.docx》由会员分享,可在线阅读,更多相关《基于视觉的人体运动综述译文.docx(86页珍藏版)》请在冰点文库上搜索。
基于视觉的人体运动综述译文
基于视觉的人的动作捕捉和分析的研究进展综述
ThomasB。
Moeslund,AdrianHilton,VolkerKru¨ger
摘要:
这篇综述回顾了2000到2006年,人的动作捕捉和分析的研究进展。
该综述是接着之前的一篇截至2000年的综述[T。
B。
Moeslund,E。
Granum,Asurveyofcomputervision-basedhumanmotioncapture,ComputerVisionandImageUnderstanding,81(3)(2001)231–268。
]作的。
在这段时间里,人的动作捕捉一直是受到越来越多关注的研究领域,有超过350篇相关文章发表,取得了一些重要的研究进展,提出了一些自动初始化,跟踪,姿态估计,动作识别的新方法。
最近的研究探讨了在自然场景中可靠的跟踪并估计人的姿态的问题。
对人的动作和行为的自动识别也取得了一定进展。
这篇综述回顾了基于视觉的人体捕捉和分析的最新研究趋势,并探讨了今后对基于视觉的人体动作分析的研究的一些未决问题。
1.介绍
人体动作的姿态捕捉和分析是一个非常热门的研究领域,既因为大量的潜在应用,也因为这个问题内在的复杂度。
这个领域包含了很多困难,且经常是ill-posed的问题,比如,从图像中推断有复杂关节连接,有自我遮挡的非刚体三维物体的姿态和动态的问题。
这种复杂性使这个研究领域从纯学术视角来看非常具有挑战性。
从应用的角度来看,基于计算机视觉的方法之所以有吸引力,是因为它通常是唯一一种非入侵的方法。
应用通常可以归为以下三个名目:
监控,控制,和分析。
监控应用涵盖了对大人流的场景,例如机场,地铁等地点的自动监视并理解的相关经典问题。
这方面的应用包括:
人数清点,人流和拥挤分析。
一些新的监控应用可能是被越来越被认识到的安全问题的激发—包括动作,活动和行为的分析,既包括对某个人的分析,也包括对整个人群的分析。
例如,排队和购物行为分析,异常行为检测,身份鉴别等。
控制应用是指用估计的人的动态或姿态参数来进行控制。
这可以用在游戏的人和游戏的界面中,例如作EyeToy[3]中,虚拟现实或更宽泛的称为人机界面(Human-ComputerInterface)中。
而且,这在娱乐工业界也可以有应用,比如基于捕捉真人的外表,形状和动作来产生并控制个性化的计算机图形学模型,将使得娱乐产品更有真实感。
分析应用,包括整形外科病人的自动诊断,分析并优化运动员的表现。
更新的应用包括视频标注,基于内容的视频检索,适合高效率存储和传输的视频压缩,例如食品会议和视频索引。
另一分支的应用在汽车工业中,包括自动控制安全气囊,驾驶员疲劳检测,行人检测,车道导航等。
大量的潜在应用,问题本身的复杂性,主流硬件的速度和价格,以及对安全问题的关注刺激了计算机视觉界对人体动作捕捉和分析的研究。
这从相关专题发表文章的数量,各主要刊物会议的专刊的数量,工作组的数量就可以看出来。
而且,各主要研究基金的资助也都专注此领域,特别是监控领域。
对这一领域的兴趣带来的大量研究,在表1所列的综述中进行了总结。
Table1Previoussurveys
Year
Author
#Papers
Focus
1994
Aggarwaletal。
[10]
69/0
Articulatedandelasticnonrigidmotion
1994
CedrasandShah[54]
76/0
Motionextraction
1995
Aggarwaletal。
[11]
104/0
Articulatedandelasticnonrigidmotion
1995
Ju[181]
91/0
Motionestimationandrecognition
1997
AggarwalandCai[9]
51/0
Motionextraction
1997
Gavrila[114]
87/0
Motionestimationandrecognition
2000
MoeslundandGranum[247]
155/0
Initialization,tracking,poseestimation,andrecognition
2001
Buxton[48]
88/6
Recognition
2001
Wangetal。
[388]
164/14
Detection,tracking,andrecognition
2003
Huetal。
[157]
185/54
Surveillance
2004
AggarwalandPark[12]
58/10
Recognition
2006
Thissurvey
424/331
Initialization,tracking,poseestimation,andrecognition
NotethattheYearisnotnecessarythepublicationyearbutrathertheyearofthemostrecentpaperinasurvey。
Thetwonumbersinthe#Paperscolumnstatethetotalnumberofpublicationsandthepublicationsafter2000。
虽然其中部分综述都是近期作的,但是所总结的2000年之后的文章数量较少。
在这段时间内有大量的前沿性工作。
最近的研究工作发送了以前方法中过于限制性的假设[247]。
例如,许多系统形状都能工作在自然户外场景下,长时间处理含有多人(包含遮挡)的视频序列,尤其因为更先进的分割算法的缘故。
其他的例子包括基于模型的姿态估计,它引入的基于学习的动态模型和随机采样方法能够得到更快更精确的估计结果。
同样在识别领域,对动作和行为的表示和解释也有很大的进展。
因为近期研究的重要进展,我们写了这篇综述。
这篇综述基于352篇近期文章(2000-2006),根据Moeslund和Ganum在他们的2001年的总是中提出的功能分类组织成以下部分:
初始化:
确保系统开始操作前,对当前场景有正确的解释;
跟踪:
在一帧或多帧图像中分割出并跟踪人;
姿态估计:
在一帧或多帧图像中估计人的姿态;
识别:
在一帧或多帧图像中识别人的身份;识别一个人或一群人的动作、活动和行为。
2.模型初始化
基于视觉的人体动态捕捉和分析的初始化通常要求定义一个人体模型来近似模拟要跟踪的人的形状、外观、运动结构以及初始姿态。
大多数三维姿态估计算法仍然使用手工初始化的一般模型,包括四肢长度和形状,来近似一个特定的人。
一些作者研究了从单视角或多视角图像中重构更为准确的人体模型来自动化模型的初始化工作并提高跟踪的质量。
初始化捕捉关于某个特定人的先验知识,可以为接下来的跟踪和姿态估计提供限制。
人体动态捕捉用到的先验知识有以下几种:
运动结构,三维形状,颜色外观,姿态,动作类型。
在这个部分中我们回顾了最近研究中关于运动结构,三维形状和外观的估计的进展。
外观的初始化一般都作为跟踪和姿态估计的一个组成部分,因此也将在第三,四部分和具体的方法一起讨论。
2.1运动结构初始化
大多数基于视觉的跟踪系统假设有一个先验的人体运动结构,包括固定个数的关节,每个关节有确定的自由度。
因此运动结构的初始化就限制在估计肢体结构的长度。
商用的基于标记的动态捕捉系统通常要求为把各个关节各个自由度分离的一系列动作,根据每个标记和四肢之间的对应关系,以及重构得到的标记在运动中的三维轨迹就能估计肢体的长度。
严格的左右两侧身体的对称性限制通常也会用到估计中。
一些方法[26,28,278,361]则讨论了如何在单目图像中通过手工标注关节点来初始化身体姿态和肢体长度。
应用人体测量学上关于肢体长度比例的的限制,可以估计出运动结构等于一个未知的衡量因素。
直接从运动中的人体的图像序列中估计运动结构也有相关研究。
Krahnstover等人[200,201]提出了一种基于单目视频序列的运动分割来自动初始化上半身的运动结构。
Song[350]等人解释了一种非监督学习算法,适应复杂背景下的单目视频序列中的点特征跟踪来自动重构整个身体的运动三角模型。
学习得到的模型则用来在侧面图像中跟踪步行者的动作。
这些方法提供了从场景中直接初始化人体运动结构的一般化办法。
也有一些方法从多视角图像重构三维形状序列,再从中获得运动结构。
Cheung等人[59]从一个独立运动各个关节的人的中初始化他的运动结构。
从把分割后的身体运动部分和一个固定姿态下的可见外壳(visual-hull)模型对齐,就能从中获得身体的完整骨架和每个身体部分的形状。
Menier等人[233]剔除了一帧从可见外壳的中轴自动获得人体三维姿态估计的方法。
运动结构在每帧中独立的初始化,能够进行鲁棒的跟踪。
[44。
65]中更为一般的框架是三维形状的时间序列中估计其中的骨骼的脊柱结构从每一帧的形状中估计出脊柱,找出不同时刻的共同结构来估计其中的运动结构。
这一工作举了近似婴儿,成人和动物运动结构的例子。
初始化人体运动结构的关节角度范围限制对把动作估计限制在有效范围内很重要。
在很多动作估计算法中都使用人类测量学数据来手工确定关节角度范围。
但是这样没有考虑关节角度范围的复杂性,不同关节不同自由度之间的组合。
最近的研究中,通过学习关节角度范围和它们之间的相关性的模型来克服这一问题。
手臂上各个关节(肩,肘,腕)之间的关系的模型被用来给视觉跟踪和三维的上半身姿态估计进行限制[248,253,262]。
最近的研究通过基于标记的系统[144,145]对人的运动进行测量,以及临床医学数据[252]对关节活动角度范围进行建模。
研究表明这些有助于提高对上半身的复杂运动的姿态估计的准确性。
现在研究者越来越多的使用商用的基于标记的跟踪系统获取人体运动数据,用来学习人体运动学的先验模型,以及一些特定动作的的模型,来为人体跟踪提供限制。
类似的,动作捕捉数据库[1,2,4]也被用来合成与已知三维姿态对应关系的图像序列,来学习图像和姿态空间之间的映射关系,最终用于重构人体姿态。
2.2形状初始化
很多基于视频的人体动作估计技术中都使用一个一般的人体模型来近似人的形状。
人体的表示或者使用简单的形状元素(柱体,锥体,椭球体,超二次曲面),或者使用面元素(多边形网格,细分曲面),它们用运动骨架连接起来。
不同的方法被用来细化模型并近似一个特定的人。
在之前的研究中[147],基于一台摄像机拍摄的正面和侧面图像的轮廓来细化一个一般的网格模型。
之后通过纹理映射来近似面上的外观。
最近的研究[53,289,352]使用多个校准过的视角下的同时拍摄的图像来获得更准确的形状和外观。
Plankers和Fua[289]在跟踪之前,用一个隐式的椭球模型去拟合立体点云来初始化人体上半身的形状。
Carranza等人[53]在跟踪全身运动前,用一个一般的网格模型去拟合人体在某个姿势下多视角的轮廓图像。
Starck和Hilton[352]为任意姿态下的人体重构全身的形状和外观,方法是通过关于轮廓,立体信息,以及多视角下的特征对应最优化一个一般的网格模型。
如果这些方法中,假设的一般模型的形状确实是人体的恰当的近似的话,那么这些模型拟合的方法能够得出人体的准确的参数模型近似。
但是,模型拟合方法通常假设人体上只有较短的的毛发,并且穿着紧身衣,这些都限制了它们的可扩展性。
全身的三维扫描传感器能提供对人体面形状的准确测量。
用一般的人体模型拟合某个特定姿态的人体的全身扫描数据能够得到人体形状的详细参数化表示,可以用在动画和跟踪中[14,351]。
Allen等人[14]用一个细分曲面来拟合一个人在不同姿态下的扫描数据,对人体面形状随姿态的变化进行参数化。
三维扫描数据库也被用来学习不同人体形状之间的变化的统计模型[15,363]。
学习得到的模型可以用来对从图像重构人体形状提供限制,提高重构的准确性。
2.3外观初始化
因为在不同的穿着下,不同人之间以及同一个人在不同情况下的外观的巨大差异,对人体外观的初始化通常基于观察到的图像集。
颜色的统计模型常被用来跟踪,参见3。
3。
为基于模型的姿态估计进行的详细的表面外观的初始化也使用从多视角图像[53,352]中获得的纹理映射。
度量模型投影和观察到的图像之间的差异的代价函数则用来估计姿态。
Sidenbladh和Black[322,333]研究了不同身体部分的观察图像的似然度。
他们基于训练样本上的滤波器响应来学习外观和运动的统计模型。
Robert等人[309]在一个相关的方法中,用一个三维面模型上的多峰分布直方图来学习身体部分的颜色外观的似然度。
学习结果呈现在对上半身和复杂场景中的步行动作的二维跟踪中。
最近的趋势是首先学习各身体部分的检测器,检测出身体各部分的可能位置,然后再按概率的组合起来检测整个人体[235,296,310,314],参见4.1.1。
这种模型的初始化需要大量的训练样本,包括各个身体部分的正例和反例样本。
AdaBoost之类的方法成功的用于学习人脸[380],手,手臂,腿,躯干[235,310]。
另外,Ramanan等人[296]在步行图像序列的关键帧中检测人体的姿态,并初始化一个局部的外观模型,来检测其他中间帧中的各身体部分。
Lim等人[221]通过对步行中人体外观的动态进行建模来解决因为运动产生的外观变化的问题。
这是通过把一个包围盒内的像素用非线性的局部线性内嵌算法(LLE)映射到一个低维空间(仅三维)。
在这个空间中仍然保持外观在视觉上的连续性,因此可以学习步行人体的动态模型。
这个模型因此不仅可以预测人体的位置和二维形状,还可以估计人体的外观。
初始化一个模型并使它能够正确的表示因衣服的褶皱,毛发,以及身体形状随着的运动的变化而产生的外观变化仍然是一个未解决的问题。
最近的研究中引入的局部身体部分的鲁棒检测器为跟踪和姿态估计提供了一种可能的解决方法。
2.4关于模型初始化的进展的讨论
形状,外观和其他的初始化是自动捕捉和分析人体动作过程中的重要步骤。
在这篇综述中可以看出,自动的解决方案已经取得了很大进步。
[350]讨论了如何初始化人体运动结构和如何从单视角图像序列的特征跟踪获取人体姿态。
一些研究者提出了用一个中间的体重构过程从多视角图像序列初始化人体运动结构的方法[59,233]。
这些方法能够解决用于人体姿态估计的人体运动结构模型的自动初始化问题。
学习方法[145]和人体测量学模型[252]被用来初始化人体运动结构的关节角度范围,用来对跟踪和姿态估计进行限制。
过去5年中有大量从多视角图像中自动初始化模型形状的研究[53,59,289,352]。
这些方法重构出一个由关节连接的人体模型,能够近似一个特定人的形状,改进跟踪的准确性。
最近的研究也开始解决对人体形状在运动中的变化进行建模。
类似的,多视角的重构技术也可以用来对一个特定的人自动初始化人体模型的外观。
在单目视角跟踪和姿态估计中,如何初始化外观模型仍然是一个未解决的问题。
一些方法提出基于实例图像片或混合颜色模型来初始化外观模型。
最近的关于身体部分检测的工作使用有监督学习的方法来区分各个身体部分的外观和背景[296,310,314]。
只有少数的研究讨论了如何对人体外观随着运动发生的变化进行建模。
能用于从单视角图像序列中完全自动初始化人体的运动结构,形状和外观模型,并用于姿态估计的方法仍然有待将来的研究。
3.跟踪
2000年以后,跟踪算法主要关注监控应用,在户外跟踪,包含遮挡状态下的跟踪以及在静态图像中检测人方面取得了进展。
在这一部分我们回顾了这些领域的近期的进展,以及一些更宽泛的跟踪问题。
在基于视觉的人体动作分析领域,跟踪的概念在文献中有不同的用法。
在这里我们把跟踪定义成两个过程:
(1)人物-背景分割和
(2)不同时刻间的对应。
后者是指把当前帧中检测到的人物和之前帧中检测的人物建立对应关系,并提供每个人在状态空间中的随时间变化的轨迹。
最近的研究进展主要是关于处理更为自然的场景,含有多人的场景和有遮挡的情况。
人物-背景分割是把关注物体(人)和图像中其他部分(背景)区分开。
人物-背景分割方法经常作为许多视觉系统的第一步,因此是一个关键步骤。
最近的研究进展大多是对已有方法的扩展。
我们根据用来对图像进行分割的图像度量来对这些方法进行分类:
基于运动,外观,形状或深度数据的方法。
在此之前我们首先对背景消除的最新进展作回顾。
3.1背景消除
直到90年代后期,背景消除都被认为是一种强大的预处理步骤,但受限于室内受控环境中使用。
1998年Stauffer和Grimson[354]提出用高斯混合模型(amixtureofGaussianMoG)来表示每一个像素,并在运行中对每个像素的MoG模型进行更新。
这种方法能被用于室外场景。
一般更新都是递归进行的,这样就能模拟场景的缓慢变化,但像云这样的快速变化仍难以处理。
Stauffer和Grimson的方法如今成了背景消除的标准方法。
但是,1998年以后,有一系列新进展,这些进展可以归为背景表示,分类,背景跟新和背景初始化。
3.1.1背景表示
背景的MoG表示可以是在RGB空间中,但其他颜色空间也被使用过,参见[202]的概括。
通常会使用颜色和亮度信息分离的颜色空间表示,例如YUV[394],HSV[69]以及规格化RGB[232],因为这些表示能辨别出被错误识别为物体像素的阴影区域像素。
在三维颜色空间中使用MoG模型对应于高斯模型的椭球或球形区域(取决于关于协方差矩阵的假设)[232,354,421]。
其他几何形状包括截断的圆柱[196]和截断的圆锥[108]形。
其他概念上不同的方法也被提出过。
Elagammal等人[96]用基于核函数的方法来表示每一个背景像素在过去N帧中的值。
Haritaoglu等人[138]用一个像素的最小值,最大值以及连续两帧间取值的最大差来表示这个像素。
Heikkila和Pietikainen[141]用一个比特序列来表示每个背景像素,其中每个比特表征一个相邻像素的值是高于还是低于该像素的值,也就是说,这个比特串是一个纹理算子。
这种背景模型对于单调光照变化是不变的。
Oliver[270]同样使用一个像素的邻域来表示一个像素。
他们用背景的特征空间来表示背景,通过比较输入图像和在背景特征空间中重建的图像来检测新物体。
Eng等人[101,102]把一个在一段时间上学习得到的背景模型分成一些不重叠的块。
每个块内的像素根据一致性分成最多三类。
这些类的均值就作为这个块的的背景表示,即一种时空的表示。
Heikkilahe和Pietikainen也把他们的纹理算子方法用在了一种时空的基于块的背景分割中[140]。
其他的时空的方法包括[256]和[423],其中的背景表示成用自相关过程预测的区域。
对背景表示方式的选择不仅取决于他们的准确性,还取决于其具体实现的速度和应用对速度的要求。
这是因为背景消除的总的准确性是背景表示,前景背景的分类,背景的更新以及初始化的组合决定的。
例如,Cucchiara等人[69]只用一个值来表示每一个背景像素,但是仍然能得到好的结果和处理速度,因为他们所用的先进的分类算法和背景更新算法。
但值得注意的是,MoG仍然是最广泛使用的背景建模方法。
对含有动态背景的场景来说,MoG模型不足以描述背景的变化,需要使用能直接对动态变化的背景进行建模的方法[256,327,423]。
3.1.2分类
背景消除后,总是会留下一些falsepositive和falsenegative,比如由阴影引起的错误分类。
应用一些标准的滤波技术,例如基于连通分量分析,基于区域大小的过滤,中值滤波,形态学,邻近关系等的滤波技术,能够改善背景前景分类的结果。
另一方面,考虑相邻像素倾向于同时属于背景或同时属于前景,也可以帮助对图像像素进行背景前景分类。
[323,327]用Markov随机场来实现这种想法。
最新的方法试图直接辨别出错误分类的像素,并用分类器把像素分成更多的子类:
没有发生变化的背景,变化因为自动虹膜调节,阴影,高亮,移动物体,移动物体投下的阴影,虚假舞台,虚假阴影等。
[57,69,149]现象产生的。
这些分类器基于颜色,梯度[232],光流[69],滞后阈值等[101]产生的。
3.1.3背景更新
尤其在户外场景中,背景像素的值会随着时间推移发生变化,因此需要背景的更新机制。
场景中缓慢的变化可以通过把像素的当前值带权加入以前的模型中来对模型进行递归的更新[69,96,232,354]。
另一种方法是度量整个图像和期望背景的平均变化,并据此来更新模型[108,408]。
如果没有实时性的要求,像素在过去和将来的值都可以用来更新背景的模型[106]。
总的来说,好的模型更新方法应该只更新没有发生改变的背景像素。
场景中快速(突然)发生变化时,通过向模型中加入新的模型来适应新的变化。
对MoG模型来说,一个新的模型就是一个新的Gaussian分布,新的Gaussian分布在检测到一个非背景像素值时初始化。
随着时间的推进,越多的观测值支持这一分布,这个分布就获得越大的权重。
[108,196]中用了类似的更新方式。
在那种方法中,背景模型用codebook来表示。
每个像素用一些codewords来表示([196]中表示RGB空间中的圆柱,[108]中表示圆锥)。
在运行时,每一个前景像素都会创建一个新的codeword。
但是若干帧内没有新的像素值符合这个codeword,它就会被除去[140,141]。
3.1.4背景初始化
背景模型需要一段初始化的阶段来学习。
早期的方法假设会有一系列不包含运动物体的连续帧,在这段时间内学习背景模型的参数。
但是,在现实应用场景中,这种假设是不成立的。
最近的方法因此专注于在存在运动物体的情况下对背景模型进行初始化。
在MoG表示的背景模型中,初始化阶段存在的运动物体在一定程度上是可以接受的,因为这些前景物体在MoG模型中很可能表示成权重很低的一个分布。
但是这种不正确的背景模型在分类阶段容易产生falsepositive。
另一种方法是找出真正的背景像素值,并只用他们来初始化背景模型。
如果可以假设属于前景物体的像素值少于50%,可以用时序上的中值滤波来处理[101,119,138]。
Eng等人[101]还把这种方法结合肤色检测来从用来初始化的训练图像中找出并去除人物。
最新的方法中,首先把像素的一系列值划分成一些时间段,每一段包含一些相似的值。
然后从这些时间段中找出最好的一段作为背景的取值样本,可以取有最小平均运动的一段(用光流度量)[130],或者取样本数量和样本方差比值最大的一段[385,386]。
前面提到的codeword方法则在初始化之后用时序滤波来剔除重复出现不够长时间的codeword[196]。
[140,141]中用了类似办法。
对另一些背景消除方法的比较可以参看[55,61,385,386]
3.2基于运动的分割
基于运动的前景-背景分割是基于这样的观点:
连续两帧图像之间的区别是由运动中的人产生的,也就是说,找到图像中的运动就找到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 视觉 人体 运动 综述 译文