手形特征与运动轨迹相结合的动态手势识别图文精Word格式文档下载.docx
- 文档编号:3335769
- 上传时间:2023-05-01
- 格式:DOCX
- 页数:47
- 大小:50.25KB
手形特征与运动轨迹相结合的动态手势识别图文精Word格式文档下载.docx
《手形特征与运动轨迹相结合的动态手势识别图文精Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《手形特征与运动轨迹相结合的动态手势识别图文精Word格式文档下载.docx(47页珍藏版)》请在冰点文库上搜索。
的手势图像从视频流中分离出来,接下来我们进行灰度化处理和平滑去噪,平滑后我
们用自适应阈值法对手势图像进行二值化,得到了较好的二值化效果。
在特征提取环节,我们先提取手形特征并依据手形特征进了粗分类,然后提取手
势图像的运动轨迹特征与手势的手形特征相结合产生了手势的特征向量。
在分类器的设计上,我们将14套手势图像这样划分:
4套为训练集10套为测试
集。
然后先根据手势训练集学习手势特征,再计算测试集中手势与训练集中手势的欧
氏距离,最后用近邻法来识别判断。
实验的结果证明了我们的方法是完全行之有效的,识别率达到了93.3%。
关键词:
动态手势识别,图像预处理,白适应阈值,近邻法
Handgesturesplayanaturalandintuitivecommunicationmodeforall
humandialogs.Theabilityforcomputertovisuallyrecognizehandgesturesis
essentialforfuturehuman・computerinteraction.However.vision—basedrecognition
ofhandgesturesreasonsisanextremelychallenginginterdisciplinaryprojectfor
thefollowinghandgesturesaredchindiversities.mu似-meaningsandspace-time
vadeUes;
humanhandsarecomplexnon—dgid
ill—posedproblem.
Thispaperdiscussedtheresearchofvision・basedDynamicGestureobjects;
computervisionitseffisan
Recognitionbasedin3aspects:
gestureimagepreprocessing,featureextraction
andthedesignofclassifier.
Intheprocessofimagepreprocessingweextracttheframesthatweare
interestedinfromthevideofilefirst.thenthereareseveralimageoperationswe
shoulddo.WetumtheRGBcolorimagesintogray-scaledimages,takethe
smoothingmeasuretoreducethenoiseintheimages,thenwegetthebinary
versionoftheimagesbythemeansofadaptiveshrinkagevalue.
Followingtheimagepreprocessing,it'sturntoextractthedghtfeature
fromthegesture.Wegrosslyclassifiedthegestureaccordingtothetrackofthe
handandtheshapeofthehand.andthenwe
Inthecalculatethevalueof仇efeature.classifierdesigning,wesplitthe14setsofgestureimagesinto10
testingsetsand4designingsets.Thesystemgetsthefeaturefromthedesigning
setsandsaveitasatemplate,andthenitcalculatesthefeatureoftheinput
gestureofthetestingsets.Compadngwiththetemplateusing
itgetstheresuitbynearestneighborrule.
TheEuclideamourDistence。
recognitionratioisproved93.3%。
theresuitshowssystemis
totallyeffective.
XiangkunTseng(ComputerDept.)
KEYWOEDS:
DynamicGestureRecognition,ImagePreprocessing,Adaptive
ShrinkageValue。
NearestNeighborRule
论文独创性声明
本论文是我个人在导师指导下进行的研究工作及取得的研究成果。
论文中除了特别加以标注和致谢的地方外,不包含其他人或者其他机构已经发表或撰写过的研究成果。
其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明并表示了感谢。
作者签名:
群托丝日期:
丝专
论文使用授权声明
本人同意上海海事大学有关保留、使用学位论文的规定,即:
学校有权保留送交论文复印件,允许论文被查阅和借阅;
学校可以上网公布论文的全部和部分内容,可以采用影印、缩印或者其它复制手段保存论文。
保密的论文在解密后遵守此规定。
储擗2峄导日期:
第一章绪论
1.1模式识别简介
模式识别诞生于20世纪20年代,经过40年的发展到60年代初迅速发展成为-fl学科。
它所研究的理论和方法在很多科学和技术领域中得到广泛的重视,同时也推动了人工智能系统和计算机应用的发展。
许久以柬的研究成果涉及各个领域,包括遥感数据分析、地震波的检测、自动视觉检测、非数字系统中的故障检测和分析、医学数据分析、文字识别、语音识别、人脸和手势的识别等等111。
在模式识别中,有两种经典的识别方法:
1、统计方法。
又称为定量统计判断方法,就是用一组统计量来描述模式。
基于这种方法的识别过程由四个部分构成:
数据获取、预处理、特征抽取和分类。
∞结构方法。
又称句法分析,是对模式进行结构描述和分析,把一个复杂模式分化成为若干较简单的子模式的组合,并模仿语言学中句法的层次结构,运用形式语言和自动机识别技术。
基于统计识别法的模式识别系统主要由五部分组成:
数据获取、预处理、特征抽取,分类设计和分类器。
如图1-1。
客结果
信息获取过程是通过测量、采样和量化,用矩阵和向量表示二维图像或一维波形。
预处理的目的是除去噪声,加强有用信息,并对种种因素造成的退化现象进行复原。
特征抽取的过程是对原始数据进行选择或变换,得到最能反映分类本质的特征,构成特征向量。
为了把待识模式分配到各自的模式类中去,必须设计出一套分类判断规则基本做法是:
用一定数量的样本(称为训练样本集),确定出一套分类判别规则,使得按这套分类判别规则对待识模式分类所造成的错误识别率最小或引起的损失最小。
这就是分类器设计的过程。
分类器按已确定的分类判别规则对待识模式进行分类判别,输出分类结果。
1.2课题背景
手势是一种自然、直观、易于学习的人机交互手段,它是聋哑人进行信息交流的一种最常用方式。
手势识别的目标就是通过计算机提供一种有效的、准确的机制将手势翻译成文本或语音使得聋人和听力正常入之间的交流变得更方便、快捷。
手势识别的研究可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面,同时也有助于改善和提高聋哑人的生活学习和工作条件,为他们供更好的服务;
另外,手势的研究涉及到教学、计算机图形学、机器人运动学、医学等多学科。
因此,手势识别的研究是一个非常有意义的课题。
手势的识别不但具有深远的研究意义,而且具有广阔的实际应用前景,至少表现在以下几个方面:
(1)从认知科学的角度,研究人的视觉语言理解的机制,提高计算机对人类语言的理解水平;
(2)对语音识别起着辅助作用;
(3)利用手势控制VR中的智能化;
(4)机器人的示范学习;
(5)虚拟现实系统中的多模式接口;
(6)能够使得聋哑人,尤其是使得文化程度比较低的聋哑人,使用手语和正常人交流等。
2
1.3手势识别分类
根据识别对象分类1.3.1
根据识别对象形态的差异可以将手势识别分为静态手势识别和动态手势识别。
静态手势识别的研究重点对象是手的姿态(posture)和单个手形。
这方面的工作国内有:
哈工大的李勇、高文等提出的基于指尖染色和手指染色的颜色手套模型,实现可以识别中国手指字母表30个基本手形的静态手势识别系统。
1、哈工大的张良国等提出基于Hausdorff距离的手势识别。
1以及上海交通大学的刘江华等用最小二乘支持向量机(LS—SVM)作为分类器对26个字母手势进行识别“1;
国外的有RemikZiemlinski等提出过专门的静态识别方法“1。
动态手势识别的识别对象是一组连续的手势动作,通过相应的识别算法,识别出整个手势动作的意义,在这方面国内外研究者投入了很大的精力和热情,也提出了各种识别的算法【6岱1,本文后续内容将重点讨论动态手势识别。
1.3.2根据手势输入设备不同分类
根据手势识别研究中所采用的手势输入设备不同可以分类为基于数据手套的手势识别和基于视觉的手势识别。
基于数据手套的手语识别系统,是利用数据手套和位置跟踪器测量手势在空间运动的轨迹和时序信息,这种方法的优点是系统的识别率高,缺点是打手语的人要穿戴复杂的数据手套和位置跟踪器,并且因为目Ii{『输入设备比较昂贵,大量推广比较困难。
历史上,Grimes在AT&T最先取得了“数据手套“专利‘1.因此,它也可被认为是最早进行手势识别研究的人,手势识别的历史比手语识别的历史长,一般认为手语识别研究始于1992年。
从识别方法上看,目前主要采用的是隐马尔可夫模型(HMM)、模板匹配方法及神经网络方法,模板匹配主要用于少量孤立手3
势的识别。
基于视觉(有些文献称为:
基于图像)的手势识别研究是利用摄像机采集手势信息,并进行识别。
该方法的优点是输入设备便宜,计算机与人的交互更加趋于自然化,但其目静识别率较低,实时性较差,特别很难适用于大词汇量的手语识别。
不同文化背景对手势的定义是有区别的,由于手势本身具有的多样性、多义性以及时I'日J和空间七的差异性等特点,加之人手是复杂变形体以及视觉本身的不适定性,因此摹于视觉的手势识别是一个多学科交叉的、富有跳战性的研究课题。
1.4基于视觉的动态手势识别系统
一个基于视觉的动态手势识别系统的总体构成如下:
首先,通过一个或多个摄像机获取视频数掘流。
接着,系统根据手势输入的交互模型检测数掘流罩是否有手势出现。
如果有,则把该手势从视频信号中切分出来。
然后,选择手势模型进行手势分析,分析过程包括特征检测和模型参数估计,识别阶段,根据模型参数对手势进行分类并根据需要生成手势描述。
最后,系统根据生成的描述去驱动具体应用.具体步骤如下:
一、帧分离
将手势图像帧从视频数据流中分离出来并进行相应的预处理供系统调用。
二、手势分割
手势分割的目的是在I;
{『景中仅保留手势部分,对于大部分分割工具,必须通过以下三步来实现:
1.用一个边缘检测器确定图像的边界。
2.通过一种运动检测技术,决定图像的所有运动部分。
3.通过结合两种信息来抽取运动边界。
三、手势建模
手势模型对于手势识别系统至关重要,特别是对确定识别范围起关键性作用,模型的选取根本上取决于具体应用,对于某个给定的应用,一个非常简单并且粗糙的模型可能就是充分的。
然而,如果要实现自然的人机交互,那么必须建立一个精细有效的手势模型,使得识别系统能够对用户所做的绝大多数(如果不4
是所有的)手势作出正确的反应(识别或拒识)。
目前,主要的手势建模方法是通过手势的表现给手势建模,这种基于表现的手势模型是建立在手势图像的表现之上,它通过分析手势在图像(序列)里的表现特征去给手势建模,基于表现的手势模型主要有以下几种:
1.基于灰度图像本身的表现模型。
例如,把人手的完整图像序列作为手势模板”’。
在手指跟踪应用里,仅仅手指的图像也可以用作模板。
运动历史图像也可作为手势模型,运动历史图像是指在某个时间区问上累加图像序列罩各单个像素点的运动位置而形成的2D图像。
2.基于可变形2D模板的表观模型。
可变形2D模板是物体轮廓上某些点的集合,~般把它用作插值节点去近似物体轮廓。
模板由平均点集合、点可变性参数,以及所谓的外部变形构成,平均点集合描述了某一组形状的“平均”形状,点可变性参数描述了允许的形变,通常称这两组参数为内部参数,外部变形或者外部参数描述了一个可变形模板的全局运动,如旋转、平移等。
基于可变形模板的人手模型通常被用于人手跟踪汹1,最近,有人把2D可变形模板扩展成3D可交形模型(3D点分碲模型)用于手势跟踪。
3.基于图像属性的表现模型。
我们把从图像属性抽取的参数统称为图像属性参数,它们包括:
轮廓、边界、图像矩、图像特征向量以及区域直方图特征等等,由于图像矩计算简单,因此常被用作图像属性参数,其它常被使用的属性参数还包括Zernike矩、方向直方图、颜色直方图等等。
4.基于运动图像的表现模型。
这类表现模型主要用在动态手势识别里,例如,通过运动边界点以及方差约束计算光流,然后通过向量聚类以及运动平滑性约束抽取手势的运动轨迹,并根据轨迹坐标建立手势模型。
四、手势分析
手势分析阶段的任务就是估计选定的手势模型的参数,它由特征检测和参数估计两个串行任务组成。
在特征检测过程中,首先必须定位做手势的主体(人手)。
根据所用的线索不同,可以把定位技术分为基于颜色定位、基于运动定位、以及多模式定位等三种。
绝大多数颜色定位技术依赖于直方图匹配或者利用皮肤的训练数据建立查找表的方法。
基于颜色定位技术的主要缺点是在不同的光照条件下皮肤颜色变化较大,这经常导致未被发现的皮肽区域或者误检测出非皮肤区域。
5
尽管不同手势模型的参数各不相同,但是用于计算模型参数的图像特征基元通常是非常相似的。
常用的图像特征基元包括灰度图像、二值影像、区域、边界及轮廓或者指尖等…。
特征检测结束之后,就可以进行参数估计。
在如前所述的四类基于表观的手势模型中,基于灰度图像本身的表现模型有许多不同的参数,在最简单的情况下,可以选择模型视图序列作为参数,也可以使用序列罩各帧图像关于平均图像的特征分解表示,最近有人累积图像序列里的信息,从而形成单个2D图像,即所谓的运动历史图像,然后,采用基于2D图像描述技术(如几何矩描述或者特征分解)去参数化那些2D图像。
基于可变形2D模板表观模型的典型参数是模板节点的均值m和它们的方差v。
通过在训练集上进行主成分分析(PrimaryComponentAnalysis,PCA)可得到模型参数。
与可变形模板模型参数相联系的还有外部变形参数(指手或身体在工作区间里的旋转和平移运动)。
可以在类似于刚体运动估计的框架下估计模型参数的更新,所不同的是可变形模板需要估计由于模板可变性dv而引起的附加位移。
基于图像属性表现模型的常用参数是手形几何矩、Zernike矩、以及朝向直方图等等。
这些图像特征参数易于估计,但是它们对图像中其它非手物体非常敏感。
五、手势识别
手势识别就是把模型参数空间里的轨迹(或点)分类到该空问里某个子集的过程。
静态手势对应着模型参数空『日】里一个点,而动态手势则对应着模型参数空『日J罩的一条轨迹。
目前主要采用的识别方法有模板匹配方法、神经网络方法及隐马尔可夫模型(H删)。
模板匹配主要用于少量孤立手势的识别,该方法计算简单、速度快。
神经网络方法具有分类特性及抗干扰性,然而由于其处理时间序列的能力不强,目前广泛用于静态手势的识别。
著名的Fels的GloveTalk系统采用神经网络方法作为识别技术。
对于分析区间内的手势信号,通常采取删方法进行模型化。
删是众周知并广泛使用的统计方法,一般拓扑结构下的tiMM具有非常强的描述手势信号的时空变化能力,在动态手势识别领域一直占有主导地址,如卡内基・梅隆大学的美国手势识别系统及台湾大学的台湾手势识别系统等均采
用删作为系统的识别技术。
在基于删的识别算法罩,每种手势有一个H姗。
可观察符号对应着模型参数空间里的向量(点),例如几何矩向量,Zernike矩,特征图像系数向量,或者3D空间的运动速度等等。
基于删识别技术的优点包括提供了时|’日J尺度不变性,保持了概率框架、以及具有自动分割和分类能力。
另外,Grobel与Assam利用m蹦识别由戴有色手套的用户通过摄像机输入的262个孤立手势词,正确率为91.3%啪1。
然而正是由于HMM拓扑结构的一般性,导致这种模型在分析手势信号时过于复杂,使得HMM训练和识别计算量过大。
尤其是在连续的HMM中,由于需要计算大量的状态概率密度,需要估计的参数个数较多,使得训练及识别的速度相对较慢,因而以往手势识别系统所采用的}删一般为离散舢。
1.5手势识别的一般方法
1.5.1模板匹配技术
这是一种最简单的识别技术,它将输入的原始数据与预先存储的模板进行匹配,通过测量两个模板之间的相似度来完成识别任务。
如张良国,吴江琴等人论文基于Hausdorff距离的手势识别就是利用改进过的Hausdorff距离,通过计算预处理后的输入图像的Hausdorff距离和标准模板库中各种图像的Hausdorff距离进行判断伽.
1.5.2神经网络技术
这是一种较新的模式识别技术,具有自组织和自学习能力,能有效抗噪声和处理不完整的模式以及具有模式推广能力,比较常用的方法是基于模糊神经网络的手势识别。
“,其网络结构有5层组成:
第一层为输入层。
该层的各个节点直接与输入向量的各分量x[i]连接,它起着将输入值x:
卜”屯,…,%】’传送到下一层的作用,输入层节点数M。
厅-7,
即七维向量‘,其中‘分别为数据手套中取出的各个角度值,值域为[-90,90]。
第二层每个节点代表一个语言变量值。
用于计算各输入分量属于各语言变量值模糊集合的隶属度函数。
所用隶属函数为高斯函数表示的正态分布函数,即:
u{;
e-(x・-c#州
其中i:
1,2,…,n是输入量的维数,j:
1,2,…,M。
是模糊分割数;
巳,%分别表示隶属函数的中心和宽度。
该层的节点总数Ⅳ:
=M1×
M:
x...xMn,系统将该层的每个输入层的节点模糊化为3到5个分支节点,故共有节点21至35个。
第三层是归一层,它是一个中间过渡性的缓冲变量,它与规则层节点一一对应,它的每个接点代表一条模糊规则,用于匹配模糊规则前件,计算出每条规则的适用度。
如果利用两种合成算子,则有两种适用度,ep取小求解法或连乘求解法求口J。
总数为^r3=m,系统对每条规则口一,有一个对应的整型数组变量存放形成它的模糊层中的节点值的下标值,以作备用。
第四层的节点数与第三层相同,即Ⅳ・=m,它所实现的是归一化计算,ep
口』’口,7善口;
,(j:
1,2,…。
m):
第五层是输出层,它所实现的是清晰化计算——求解结果,即
y・。
善n~4,,
则为Y一眦,其中
y1
y-y2
●(i:
1,2,…,r)这里的%相当于),一的第J个语言值隶属函数的中心值,上式写成向量形式,q。
W-
:
‰‰~‰口2●
y,口m
该系统的输出层节点数据结构为十三维的向量y,,1-=13,其中,Y分别为该节点的输入节点值与相应权值的乘积,标准库输出层的正确取值范围为0至1|1之间。
该层的节点只有当输入层节点在库中有匹配时才有有效值(约为l的值).
所以对于每个输入的手势,该层中最多有一个节点值约为I,当隶属度函数小于允许误差EPS时近似取为0。
而接近于I以致达到误差允许范围内的节点下标值,即为所识别的手势在标准手势库中对应的输出层下标值。
1.5.3统计分析技术
通过统计样本特征向量来确定分类是一种基于概率统计的方法。
该技术的缺点是要求人们从原始数据中提取特定的特征向量,而不能直接对原始数据进行识别,其中常用方法之一的是基于K—L变换的特征提取方法(又称主元分析方法,PcA)‘列。
对于一系列图像
j(p)IB-0),石2Q),…,hQ)r
我们要找出一个特征向量集(p=l,2,…,P)
厩I【Ml,Ml,…,‰】
相应的主分量为(i=1,2,…,M,M<<N),
噍一彰五(p)
所以能量函数E要小于一个容忍的度
E一;
蠢旺。
)一觅(p∥旺(p)一元◇))
一;
妻@(p)一M--M-tn-。
(p))’E(p)一M--H-tn-,@))
其中
互【p)-{!
兰:
一。
厩,厩,…,田J[苎至
只Co)=囊厩
最后的输出罗(p)应该尽量与j(p)接近
Ⅳ村
歹(p)‘善元◇)。
荟^一帚
1.5.4奇异值分解法
用经典的奇异值分解获取的奇异值(Sv)来表示手势图像的代数特征嘲,以“是一幅手势图像,它有SVD分解
A。
UXV7
其中,
,晓-拙g(^,九,…,九,o’…,o)(^土如土…≈九)
“,“2,…,“。
,““I,…,“_)
“,V2C'%心∥“I,…,V*)ⅢⅣ、-I
其中砰是朋7和彳74的特征值,^是A的奇异值。
^(i:
1,2,…,l=rank(A))接近零的项较多,去掉它们得到
万。
善^%玎
孑可以看作A在特征图像“-V:
,球zV;
,…,“,Vj上的投影的叠加,再计算它和标准模板库中的特征向量的点乘距离,按照一定的准则进行判断。
基于几何矩的识别方法1.5.5
图像矩的属性在统计学和力学中有以下相似之处。
一个概率密度函数的零
阶、一阶、二阶矩分别表示其全概率、数学期望和方差。
而对于力学矩,质量空问分布的零阶、一阶、二阶矩分别表示全部质量、矩心位置和惯量。
如果一幅图像被认为是一个二维密度分布,那么与空间位置有关的像素值的几何矩函数,同样能够提供该图像的形状信息134J1351,例如,图像的总面积、图像矩心的坐标以及图像的方位。
这些形状特点能被进一步用于构造特征矢量,而这些特征矢量在图像的平移、旋转、尺度变化时保持不变。
零阶到三阶矩用于描述总体水平上的图像特征,而更高阶矩则含有更好的图像细节,但通常对噪声敏感,可以变换方式减少或消除噪声的影响。
这种方法是通过计算原始图像中的一系列几何矩和标准模板库中的几何矩的点乘距离进行判断。
1.6相关的研究历史和现状
从较早时期到九十年代,己经发展了很多基于手势的应用。
Coleman研制出了一种基于校对者标记的文本编辑器啪1。
Minsky建立了一个用于标志程序设计的手势界面”1。
Buxton的研究小组制造出了一个利用手势输入的语音得分编辑器以及一个图形编辑器。
Kubine制作了一个工具包,用来建立使用单击手势识别器的基于手势的应用仪器。
在手提电脑的发展浪潮中,笔录入计算机开始出现。
这种计算机不需要键盘,其核心技术包括手写字识别和手势识别。
另外,Watson对当前的手势识别的技术和应用做了一个综述文章。
人体运动,特别是手势在近年来已经成为HCI领域的重要课题陬8“。
然而,许多以前的基于手势的应用需要特殊的硬件,诸如鼠标,键盘实现手势的输入。
它们不方便而且很不自然。
为了让人手成
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特征 运动 轨迹 相结合 动态 手势 识别 图文