深度学习在人脸识别领域的研究情况 报告.docx
- 文档编号:2727713
- 上传时间:2023-05-04
- 格式:DOCX
- 页数:11
- 大小:126.72KB
深度学习在人脸识别领域的研究情况 报告.docx
《深度学习在人脸识别领域的研究情况 报告.docx》由会员分享,可在线阅读,更多相关《深度学习在人脸识别领域的研究情况 报告.docx(11页珍藏版)》请在冰点文库上搜索。
深度学习在人脸识别领域的研究情况报告
深度学习在人脸识别领域的研究情况
姓名:
88
学号:
88
88
2022年4月
1.深度学习的历史。
最早的神经网络是1943年提出的MCP人工神经元模型,其在1958年被应用于感知器算法中,用于机器学习分类任务。
然而,尽管这样的方法被证明是可收敛的,却因为被结构简单(线性模型),分类认为受限(二分类,复杂的任务无法正确分类)而使得神经网络的研究处于一次长达17年的低潮期。
在1986年,Hinton发明了BP算法,其由信号的正向传播和误差的反向传播两个过程组成,应用于多层感知器(MLP),并且采用Sigmoid进行非线性映射解决了之前非线性分类学习问题。
所谓的BP算法,也就是在正向传播时将输入样本输入网络,经过隐层传递到输出层,输出值与期望值不同则进行误差的反向传播,而反向传播就是按原通路通过隐层传至输入层,将误差分摊各个神经单元,获得各层神经元的误差信号响应,修正各个神经单元的权重占比。
最终,人们将得到一个较为适合的权重模型,其实际输出与期望输出的误差达到最低限度,可以被用于实际任务当中。
然而说到真正意义上的卷积神经网络,LeNet可以说算的上是现代使用深度学习的基石,其结构于1989年被LeCun提出,其在数字识别的效果也非常好。
例如,现在很多AI入门人员都必须要经历的LeNet-5模型实现MNIST数据识别任务。
可是这样的方法却并没有引起很大的关注,我想可能是因为科技发展和理论实践不相适应造成的,更何况神经网络缺少相应的严格数学理论支持(到现在这个问题还是存在),使得刚刚升起的胜利白帆又再一次降下。
尽管深度学习的研究再一次的处于低谷期,但并不意味着深度学习停滞不前。
1997年,著名的长短期记忆网络(LSTM)被提出,其解决了一般循环神经网络(RNN)存在长期依赖问题,即相较于RNN解决了长序列训练过程中存在梯度消失和梯度爆炸问题。
作为一个非线性模型,LSTM可用于构建大型DNN,在实际任务中,LSTM可被用于语音识别等方面。
现如今我们可以利用多种深度框架对其进行复现,也算得上是对那时研究出该架构的人员的一种安慰。
值得一提的是在深度学习火热之前,统计学习方法占据上风,从1986年的决策树方法到2001年的随机森林,从1995年的线性SVM(支持向量机)到2000年的非线性的KernelSVM,以及一些著名的HMM,朴素贝叶斯等方法,它们也推进人类对于人工智能领域的实现,并且也可以和深度学习相辅相成。
到现在,我们依旧可以使用DNN与类似SVM和CRF搭配进行分类任务,统计学习方法中一些指标也通常被作为设计网络合理性的评判标准。
2006年,Hinton又提出了解决DNN训练当中梯度消失解决方法,现在的研究者也依旧基本遵循这样的方法,即无监督预训练初始化权值和有监督参数微调。
值得一提的是为了更好的调参用于快速精准训练,预训练模型以及优化器SGD和ADAM被广泛应用,也算的上是对这个方法提出的最好证明。
从2012年AlexNet参加ImageNet图像分类比赛碾压第二名SVM方法事件开始,深度学习才又渐渐被关注起来。
与此同时,为了更好的实现深度学习机制,一些著名的深度学习框架也被提出,例如Caffe,TensorFlow,Pytorch,Keras,MXNet等,它们也随着计算机编程语言的发展被一一实现,现如今Python语言对其都有支持,我想这也是Python近几年火热的原因之一。
再加上显卡近几年的快速发展,其在支持并行处理高效计算的能力得到提升,不仅扩大了游戏行业和影视行业的影响力,同时也使得深度学习的研究也得到了越来越多的企业关注(高效训练,大规模集群)。
除此之外,ResNet和DenseNet的提出,又再一次给搭建更深层次网络奠定基础。
也因此越来越多的网络结构和理论研究基于前者被设计和实现,越来越多的应用和产品也被落地使用。
2.人脸识别流程。
2.1人脸检测于定位。
人脸检测是使用检测器对图像滑动窗口中的分类和定位,确定滑窗内是不是人脸,以及检测框的具体位置。
2.2特征提取。
特征提取是即提取特征向量,蕴含着几何特征或者表征特征。
几何特征:
如眼、鼻等几何关系,特点是直观,量小。
表征特征:
算法提取的局部或者全局特征。
2.3识别和认证。
提取的人脸图像的特征数据与数据库中存储的特征模板进行搜索匹配,通过设定一个阈值,当相似度超过这一阈值,则把匹配得到的结果输出。
人脸识别就是将待识别的人脸特征与已得到的人脸特征模板进行比较,根据相似程度对人脸的身份信息进行判断。
这一过程又分为两类:
一类是确认,是一对一进行图像比较的过程,另一类是辨认,是一对多进行图像匹配对比的过程。
3.基于深度学习的人脸识别算法。
3.1基于卷积神经网络的人脸图像识别。
卷积神经网络是在早些年提出的,近年来人工智能的快速发展使这种模型重新回到学者的视野。
它在图像技术,生物医学技术,工业生产等领域起着重要作用。
神经网络的最早概念是由科学家在人类神经系统中扩展的,它模仿了人类神经系统并提出了神经网络的概念。
从神经网络的概念出发,卷积神经网络得到了进一步的改进,该模型的出现为机器视觉带来了好消息。
3.1.1LENET-5模型
Lenet-5模型由卷积层,池化层和完全连接层组成,如图1所示。
图1Lenet-5模型
3.1.2基于VGG16的卷积神经网络
VGG将网络分为五组(模仿AlexNet的五层),但它使用3*3滤波器并将它们组合为卷积序列。
DCNN网络越深,通道数越大。
网络结构如图2所示。
图2VGG16网络结构
在VGG16模型中,滤波器的卷积核为3*3*3,然后使用64个卷积核((3*3*3)*64)与输入图像进行卷积,并得到相应的输出,第一卷积层的大小为224*224*64。
将第一层的卷积结果,输出到第二层的卷积。
第二层分别与前一层有64个卷积,第二层的输出为224*224*64。
在第三卷积层的输出和第二卷积层的输出之间有一个池化层。
第四卷积层的输出,由于合并层将减少前一层的输入的长度和宽度,但不会增加通道数,因此上面的第一个红色合并层的输出为112*112*64。
在VGG16模型中,使用卷积代替完全连接,主要是因为此方法可以提高计算效率,减少内存消耗并且不限制输入图像的大小。
在传统的CNN卷积网络中,卷积层的前几层参数数量所占比例很小,计算量所占比例较大。
后者的完整连接层则相反。
因此,在进行计算加速优化时,我们将重点放在卷积层上。
在参数优化和权重裁剪的过程中,研究重点是整个连接层。
3.2深度非线性人脸形状提取方法。
3.2.1Coarse-to-FineAuto-EncoderNetworks(CFAN)[1]
人脸识别中的主要难点在于人脸形态和纹理高度复杂性的特点,为进一步提高算法的非线性回归能力以获得对形状等变化的鲁棒性,zhang等[2]提出了一种由粗到细的深度非线性人脸形状提取方法(coarse-to-fineauto-encodersnetworks,CFAN).CFAN级联多个由栈式自编码网络实现的非线性回归模型,每一级刻画从人脸表观到人脸形状的部分非线性映射.在对人脸图像识别过程中,深度学习方法不仅能够提取有用的人脸纹理特征,而且能够得到精确的人脸形状和几何结构信息。
3.3基于深度学习的人脸姿态鲁棒性建模
3.3.1SPAE神经网络模型
人脸识别技术在可控条件及半可控条件下已经基本趋于成熟,然而在非可控条件下,由于人脸容易受到姿态、表情、年龄和遮挡等因素的影响,识别率不高.其中,姿态变化会导致极大的面部表观变化,是对人脸识别影响最大的因素之一
姿态变化导致的人脸表观变化是一种复杂的非线性变化,利用3D模型生成虚拟图像的方式固然可以较好地解决不同姿态间的非线性变化问题,但从2D图像恢复准确的3D模型非常困难.文献[3]提出了一种栈式渐进自编码(SPAE)神经网络模型,以实现较小规模数据下对姿态变化的非线性建模.侧面图像到正面图像变化虽然非常复杂,但却是缓慢平滑的.
3.3.2DBN算法
深度信念网络是一个概率生成模型,与传统的判别模型的神经网络相对,生成模型是建立一个观察数据和标签之间的联合分布,对P(Observation|Label)和P(Label|Observation)都做了评估,而判别模型仅仅而已评估了后者,也就是P(Label|Observation)。
DBNs由多个限制玻尔兹曼机(RestrictedBoltzmannMachines)层组成,一个典型的网络结构如图1所示。
这些网络被“限制”为一个可视层和一个隐层,层间存在连接,但层内的单元间不存在连接。
隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。
图3
文献[4]是利用深度学习解决人脸识别姿态和分辨率上的问题,具体研究了DBN在人脸姿态处理中的应用,如姿态映射和姿态分类.人脸由于姿态的变化造成的旋转在人脸成像中带来的变化更不是一个简单的线性方法.而深度学习是一种多层的复杂神经网络,它是一个良好的非线性的生成模型,DBN可以学习侧面人脸图像到正面人脸图像的一个全局映射,但个体细节差异易丢失.文献[5]采用局部二值模式提取人脸纹理信息,将其纹理信息作为DBN的输入实现分类,用以提供识别度更好的人脸特征,获得非限制条件下人脸图像的特征.文献[6]在RBM堆栈的顶层增加了一个回归层,用来在一个统一的深度学习框架下完成特征提取以及分类两种任务.深度神经网络有很强的非线性建模能力,可以采用深度学习来对人脸姿态鲁棒性建模,这些文献提供了一系列的解决思路.然而,深度学习需要大规模的有监督、多姿态人脸图像进行训练,而这类数据在实际中很难收集.
3.3有约束环境中的全自动人脸识别
3.3.1深度产生式模型
深度学习(DeepLearning)是机器学习的子领域,它是一类通过多层表示来对数据之间的复杂关系进行建模的算法。
高层的特征和概念取决于低层概念,而且同一低层的概念有助于确定多个高层概念。
深度学习的概念起源于对人工神经网络的研究,其突破在于经验性地缓解了深层神经网络容易陷入局部最优的问题。
2006年Hinton提出的深度学习开创性论文介绍了一类叫作深度信念网络(DeepBeliefNetwork,DBN)的深度产生式模型。
DBN是由一组受限玻尔兹曼机(RBMs)堆叠而成的深度生成式网络,它的核心部分是贪婪的、逐层学习的算法,这种算法可以最优化深度置信网络的权重,使用配置好的深度置信网络来初始化多层感知器的权重,常常会得到比随机初始化的方法更好的结果。
在深度神经网络(DeepNeuralNetwork,DNN)的高度非凸优化问题中,以无监督方式预训练的生成式模型(DBN)可以提供良好的初始点,然后通过有监督的反向传播算法微调权值,从而有效解决深度网络的局部最优情况和欠拟合问题。
这种生成式模型与判别式模型相结合的预训练/微调策略,极大地推动了深度学习早期的发展。
3.3.2因式分解的三路RBM
文献[8]将因式分解的三路RBM模型应用到多人脸图像匹配,匹配性均优于以前同类生成模型.文献[9]研究如何从局部遮挡的人脸图像解析面部成分,人脸被划分为若干互相重叠的块,每个块只与部分隐节点发生关联,在块等级上检测人脸,通过DBN执行训练过程,再用逻辑回归进行判别式调整,然后计算对像素敏感的标记映射.从LFW、BioID和CUFSF三个数据集中挑选2,239个图像进行实验,说明了该方法的有效性,不仅对局部遮挡的人脸图像具有鲁棒性,提供了更丰富的人脸表情分析的人脸合成,人脸关键点检测.研究表明,在有约束环境中利用深度学习的方法可以自动学习到人脸特征,与浅层方法相比,可使复杂的特征提取工作更加简单,并且可以学习到人脸图像中的一些隐性规律和规则。
3.3.3噪声调整线性单元组成的深度结构神经网络
文献[10]用噪声调整线性单元组成的深度结构神经网络将深度学习应用于目标识别和人脸验证.文献[11]中的DBN是非常善于在人脸图像预测表达类别中应对遮挡,并且可以执行SIFT描述子用于区分不同类型的场景特征.基于SIFT分类的方法能得到较好的识别效果,缺点是特征计算过程复杂,点匹配过程时间长,有一定的限制.
3.4基于深度学习的视频监控下的人脸识别
在智能监控环境下,对可疑人物进行识别是人脸识别的一个重要用途.准确、快速地识别视频中人的身份对于视频搜索和视频监控具有非常重要的意义。
视频监控人脸识别技术现阶段中比较突出的如图像清晰度、系统实时性、场景复杂等问题,随着深度学习技术的出现有了一定程度的改进。
文献[12]是基于MutiTask思想与MTCNN模型设计了一套适合于视频监控场景下的用于人脸检测与分类的级联卷积神经网络模型。
文献[13]设计了一种改进的轻量级卷积神经网络模型用于人脸特征的提取。
本文通过将全连接层替换为卷积层,来实现一个轻量级的全卷积神经网络模型,该模型减少了网络模型参数,缩短了人脸特征提取的时间。
3.5基于深度学习的低分辨率人脸识别建模
在实际应用中,采集到的人脸图像有多种姿态变化,其图像分辨率偏低,造成人脸图像识别性能迅速下降.姿态变化将非线性因素引入人脸识别中,目标对象具有丰富含义.
由于被监控的人群距离摄像头一般较远,导致被检测到的人脸区域较小,因此小尺寸和低质量的人脸图像识别性能下降,此种情况称为低分辨率人脸识别(low-resolutionfacerecognition,LRFR).因为绝大多数的人脸识别算法在低分辨率人脸识别场合中的识别率不高,并且可供识别的人脸特征信息很少.应用卷积神经网络对视频中的低分辨率人脸进行处理,可以得到较好的实验效果[14]。
4.人脸识别的研究现状。
国内关于人脸自动识别的研究始于二十世纪80年代,主要的研究单位有清华大学,哈尔滨工业大学,中科院计算所,中科院自动化所,复旦大学,北京科技大学等,并都取得了一定的成果。
国内的研究工作主要是集中在三大类方法的研究:
基于几何特征的人脸正面自动识别方法、基于代数特征的人脸正面自动识别方法和基于连接机制的人脸正面自动识别方法。
周激流实现了具有反馈机制的人脸正面识别系统,运用积分投影法提取面部特征的关键点并用于识别,获得了比较满意的效果。
他同时也尝试了“稳定视点”特征提取方法,即为使识别系统中包含3D信息,他对人脸侧面剪影识别做了一定的研究,并实现了正,侧面互相参照的识别系统。
彭辉、张长水等对“特征脸”的方法做了进一步的发展,提出采用类间散布矩阵作为产生矩阵,进一步降低了产生矩阵的维数,在保持识别率的情况下,大大降低了运算量。
程永清,庄永明等对同类图像的平均灰度图进行SVD分解得到特征脸空间,每一幅图像在特征脸空间上的投影作为其代数特征,然后利用层次判别进行分类。
张辉,周洪祥,何振亚采用对称主元分析神经网络,用去冗余和权值正交相结合的方法对人脸进行特征提取和识别。
该方法所用特征数据量小,特征提取运算量也较小,比较好地实现了大量人脸样本的存储和人脸的快速识别。
北京科技大学的王志良教授主要研究人工心理,建立了以数学公式为基础的心理学模型。
4.1实际应用效果与实验效果差距巨大
现如今的人脸识别技术在金融、安防等领域的应用实际上的效果要比实验室里的差很多,某高校引入人脸识别晨读打卡,由于反应速度还是太慢。
可见人脸识别技术在实际应用中,由于各种物理因素(光照、角度、对焦、人鱼摄像头的距离等)导致抓拍的图片质量比较差,图片又经过网络传输到局域网进行对比,匹配识别(这个处理过程比较速度太慢),使得实际效果大打折扣。
在大多数情况下,实际抓拍图像质量远低于训练图像质量。
4.2须提高实验测试的标准
在做实验测试时,往往图片质量比较高且是正脸图片,在实际应用中,采集到的图片可能是局部人脸且图片质量不高。
所以大多数情况下,实际应用的标准会远高于训练标准。
4.3训练效果和现实效果
大多数情况下,实际效果会远低于训练效果。
现在市面上CV公司都是说自己的训练效果在99%以上(无限接近于100%),但这不等于实际应用的效果就是99%。
工业上场景复杂的人脸识别应用(类似识别黑名单这种1:
N的人脸比对)正确率在90%以上就已经是表现得很好的算法模型。
5.当前人脸识别技术所存在的主要问题
尽管人脸识别技术有着广阔的应用前景,但是无论是在识别率,还是在防伪性上,都与指纹,视网膜等有着较大的差距,归根结底,影响人脸识别效果的原因主要有以下的几个方面:
1)人脸图像的获取过程中的不确定性(如光的方向,以及光的强度等)。
2)人脸模式的多样性(如胡须,眼镜,发型等)。
3)人脸塑性变形的不确定性(如表情等)。
4)所涉及的领域知识的综合性(如心理学,医学,模式识别,图像处理,数学等)。
正因为在人脸识别的过程中存在上述的各种各样的问题,因此在实际的检测和识别过程中,当这些因素叠加到一起的时候,情况就变得更加复杂。
基于几何特征的识别方法,其存在的主要问题在于,没有形成一个统一的,优秀的特征提取标准。
在描述人脸的时候,受到表情,光照,姿态的影响比较大,无法准确地描述人脸特征。
尽管如此,基于几何特征的方法在处理人脸表情分析时,仍然是一个最有效的依据。
同时,目前已经提出了很多改进的特征提取的算法,使得人脸几何特征的提取越来越趋于合理,这里面最具代表性的方法就是结合3D人脸信息的特征点提取技术。
基于代数特征的识别方法是目前在实际应用中使用得最多的一类方法,其主要原因是由于代数特征矢量(即人脸图像在特征空间的投影结果)对角度,表情等因素都具有一定的稳定性。
但对于光照而言,似乎效果并不太明显。
这种代数的特征识别方法,无法应用于人脸的表情识别。
从某种意义上来说,人脸识别的各种方法,实际上就是在寻找一种人脸的描述方式,但是要找到一种能够不受各种因素影响的描述方式非常地困难,无论是最早使用的几何描述方式以及后来比较常用的代数描述方式,都不可避免地存在各种干扰。
我们只能是在以后的研究中,逐渐去完善人脸的描述方式,使之更加有效,更加准确。
6.人脸识别未来发展趋势。
首先,人脸识别应用的最广泛领域便是安防行业,不仅给整个安防行业注入了新的生命活力,也进一步开拓了新的发展市场。
作为安防市场未来的发展方向的智能视频分析,其中最重要的技术就是人脸识别。
其二,我国的三维测量技术近年来发展形势较好,而现今3D人脸识别算法正对2D投影的缺陷做了补充,此外对于其中的传统难点,包括人脸旋转、遮挡、相似度等在内的都有了很好的应对,这也成为了人脸识别技术的另一个最为重要的发展路线之一。
其三,大数据深度学习进一步提升了人脸识别的精确度,这也为2D人脸识别的应用作了一定的突破,将其应用于互联网金融行业当中,能够快速普及金融级应用。
其四,人脸识别技术由于其便利性、安全性,可在智能家居中用作门禁系统以及鉴权系统,因此智能家居与人脸识别技术的融合是未来发展的重点方向。
智能家居中的人脸识别系统是结合嵌入式操作系统和嵌入式硬件平台建立的,加强了人脸识别技术与智能家居应用的结合度,具有概念新、实用性强等特点。
其五,人脸识别技术是未来基于大数据领域的重要发展方向。
现如今公安部门都引入了大数据,这也弥补了传统技术的难点,通过人脸识别技术使得这些照片数据再度存储利用,能够大大提升公安信息化的管理和统筹,这将成为未来人脸识别的主要发展趋势。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度学习在人脸识别领域的研究情况 报告 深度 学习 识别 领域 研究 情况