您好,欢迎来到华佗健康网。
搜索
您的当前位置:首页人脸表情识别研究的新进展_1

人脸表情识别研究的新进展_1

来源:华佗健康网
第11卷 第10期2006年10月

中国图象图形学报JournalofImageandGraphics

Vo.l11,No.10

Oc.t,2006

人脸表情识别研究的新进展

刘晓

 谭华春 章毓晋

(清华大学电子工程系,北京 100084)

摘 要 人脸表情识别(facialexpressionrecognition,简称FER)作为智能化人机交互技术中的一个重要组成部分,近年来得到了广泛的关注,涌现出许多新方法。本文综述了国内外近4年人脸表情识别(FER)技术的最新发展。首先,介绍了FER系统的组成:人脸检测、表情特征提取和表情分类,并详细叙述了其中表情特征提取和表情分类的方法。然后,对目前广泛应用的人脸表情数据库进行了介绍,并在此基础上对当前一些FER系统的性能进行了比较分析。最后,对FER领域的研究现状和挑战给予了评述,对FER可能的发展方向进行了讨论。关键词 人脸表情识别 表情特征提取 表情分类 人脸表情数据库

中图法分类号:TP391.41  文献标识码:A  文章编号:1006-61(2006)10-1359-10

NewResearchAdvancesinFacialExpressionRecognition

LIUXiao-min,TANHua-chun,ZHANGYu-jin

(DepartmentofElectronicEngineering,TsinghuaUniversity,Beijing100084)

Abstract Asanimportantpartofthetechnologyforhuman-machineinterface,facialexpressionrecognition(FER)havedrawnmuchattentionrecentlyandnumerousmethodshavebeenproposed.

Inthispaper,wepresenttheuptodate

developmentofthisareainrecentyears.First,thethreestepsoftheFERsystemareintroduced:facedetection,

expressionalfeatureextractionandexpressionclassification.Second,themethodsoffeatureextractionandexpressionclassificationaredetailedindifferentcategories.Then,wealsointroducethefacialexpressiondatabaseswhicharewidelyusedatpresen.tBasedonthesedatabases,acomparisonoftheperformancesofseveralFERsystemsispresented.Atlast,wedemonstratethestateoftheFERtechniqueandthepossiblechallenges,andprovidesomeadviceaboutthecurrentofFERdevelopmen.t

Keywords facialexpressionrecognition,database

expressionalfeatureextraction,

expressionclassification,

facialexpression

人脸表情识别(FER)所要研究的就是如何自

1 引 言

表情是人类用来表达情绪的一种基本方式,是非语言交流中的一种有效手段。人们可通过表情准

确而微妙地表达自己的思想感情,也可通过表情辨认对方的态度和内心世界。关于表情传递信息的作用,心理学家Mehrabian给出了一个公式:

感情表露=7%的言词+38%的声音+55%的面部表情。

收稿日期:2005-09-07;改回日期:2005-11-01第一作者简介:刘晓

[1]

动、可靠、高效地利用人脸表情所传达的信息。

人们对表情识别的研究可以追溯到20世纪70年代,早期主要集中在从心理学和生物学方面进行研究和分析。Darwin首先揭示了表情在不同性别,不同种族的人群中的一致性。Ekman和Frisen提出面部表情编码系统(FACS),用44个运动单元(AU)来描述人脸表情变化,并定义了6种基本情感类别:惊奇、恐惧、厌恶、愤怒、高兴、悲伤。这一系统得到了广泛的认同,并成为后来很多表情识

[3]

[2]

基金项目:教育部高等学校博士学科点专项科研基金项目(RFDP-20020003011);国家自然科学基金项目(NNSF60573148)

(1981~ ),女。2006年于清华大学电子工程系获硕士学位,现在美国攻读博士学位。主要研究方向为图像分析。

E-mail:liuxiaomin99@mails.tsinghua.edu.cn 1360中国图象图形学报第11卷

别研究工作的基础。人脸表情识别有广泛的应用前景,例如在多模式人机交互界面(MMHCI)中,表情与声音、视线、体态等结合起来可以获得更高效、更人性化的人机交流。另外,在如面部神经瘫痪诊断,人脸图像实时传输,人脸图像合成与动画,智能机器人,智能监控等多个领域,表情识别都有着广泛的应用。

[4][5]

在已有的文献中,Pantic和Fasel的综述分别从不同的角度,系统地总结了2002年之前的FER技术和方法。本文主要针对2002年以后FER研究的进展,对诸多的研究工作和热点进行总结和归纳,为前述两篇综述提供一些新的补充,并使读者了解到FER技术目前的发展趋势与方向。

2 人脸表情识别的系统概述

一个人脸表情识别系统一般包括3个环节,即人脸检测、特征提取、表情分类,如图1所示。建立一个FER系统,第1步需要对人脸进行检测与定位,这一环节的研究实际上已成为一个的方向,读者可见文献[6];第2步从人脸图像或图像序列中提取能够表征输入表情本质的信息,在提取特征数据的过程中,为了避免维数危机,可能还需要特征降维、特征分解等进一步处理;第3步分析特征之间的关系,将输入的人脸表情分类到相应的类别,如AU组合或基本情感类别。

图1 人脸表情识别系统

Fig.1 Facialexpressionrecognitionsystem

3 表情特征提取的方法

表情特征提取是FER系统中最重要的部分,有

效的表情特征提取工作将使识别的性能大大提高。通过对大量文献的总结,可知好的表情特征提取结果应该具备以下几个条件:

(1)完整的表示出人脸表情的本质特征;(2)去除噪声、光照及其他与表情无关的干扰信息;

(3)数据表示形式紧凑,避免过高的维数;(4)不同类别表情的特征之间有较好的区

分性。

要得到满足这些条件的表情特征,特征提取的过程可能需要数个步骤来完成。首先,利用某种形式的信息来获得表情的原始特征,如特征形状与几何关系,局部纹理,光流场等,这一步骤称为原始特征获取。然而,这些原始特征一般都存在信息冗余,维数过高,区分性不够等问题。为了能够更有效地表征输入人脸表情的本质,需要对原始特征数据进行一些后处理,如特征降维和提取,特征分解等,以降低维数,去除干扰因素,得到对分类更为有利的特征数据。一些原始特征获取,特征降维和特征分解的方法如表1所示。

表1 表情特征提取的3个步骤及方法例举

Tab.1 Thethreestepsofexpressionalfeatureextractionandexamplesofmethods

原始特征生成

几何特征:基准点[7,8]

外貌特征:Gabor[13,14,48],HLAC[16],LBP[17]混合特征:AAM[24~26]序列特征:光流[34,35],运动单元[46]

特征降维和提取

PCA[9],LDA[19],ICA[12],CDA[39]

排序PCA+LDA[40]MPPCA[25]

特征分解高阶奇异值分解[24]双线性分解[26]

3.1 原始特征生成的方法3.1.1 针对静态图像

(1)基于几何特征的方法Pantic在以前工作

[7][8]

的基础上改进并完善了

一种自动提取脸部器官和轮廓基准点的方法。采用多检测器的方法,从正面人脸提取19个特征点,从第10期刘晓等:人脸表情识别研究的新进展 1361

侧面人脸提取10个特征点。通过一致性检验为每个提取的点赋予一个确定性因子CF(certaintyfactor),比较CF来从多个检测器的信息中选择最精

确的检测结果。

几何特征的识别效果对基准点提取的准确性要求较高,在图像质量低和背景复杂的情况下难以实现。同时几何特征的提取忽略了脸部其他部分的信息如皮肤的纹理变化等,因此在识别细微变化的表情时区分性不够高。

(2)基于外貌特征的方法外貌(appearance)特征泛指使用全部人脸图像像素的特征,反映了人脸图像底层的信息。基于灰度图像的方法最简单,由于灰度像素受到光照和噪声影响较大,因此需要较好的预处理方法,同时结合

[9,10]

PCA和DCT变换等方法进行进一步提取。

外貌特征提取最主要的方法是基于局部特征的方法,利用一组滤波器对图像进行滤波,结果可以反映局部像素之间的关系(梯度、相关性、纹理等)。近来,基于Gabor小波的方法被广泛应用于人脸表情的特征提取

[11~14]

缘方向的相似性组成所谓的不对称脸(asymmetryface),并认为这一脸部的不对称性在表情识别中也具有很强的区分能力。Zhu定义了包含脸部重要

特征的7个区域,然后对每个区域计算4种改进的不变矩,并定义一个尺度因子α来调节和平衡各个区域的特征值强度。

(3)基于混合特征的方法

几何特征能够简洁地表示出人脸宏观的结构变化,而另一方面外貌特征侧重于提取局部的细微变化,一些研究者将两者结合起来,用混合的特征进行表情识别。如文献[13]、[14]中将几何特征与局部点或局部区域的Gabor小波系数结合起来作为表情特征。Zhang

[22]

[20]

提出用多种特征融合的方法进行

表情识别,所使用的特征提取方法包括:基于特征点的几何特征提取,法令纹(nasolabialfold)检测,前额区域边缘检测,后两者均为脸部瞬时变化出现的特征,如图2所示。

,它能够检测多尺度、多方向的

[12]

纹理变化,同时受光照变化影响较小,Donato曾

比较了几种方法识别脸部AU的性能,结果表明Gabor、ICA优于其他的方法。Wen

[14]

在一系列手工

标定的局部小区域提取平均Gabor小波系数作为纹理特征,同时引入了一种在人脸合成中使用的基于比例图的方法来对纹理提取区域进行预处理,以降低不同人脸差异和光照变化引起的人脸反照度不均的影响。另外,一种类似Harr小波的矩形特征也被

[15]

应用于表情特征的提取,它可以对整幅图像进行快捷的计算,从而获得较好的实时效果。局部特征提取方法还有基于边缘,高阶局部自相关(HLAC),局部二元模式等。Shinohara对人脸图像提取共35种主要的高阶局部自相关特征,同时与Fisher加权映射的方法相结合,从而增强一些重要特征区域,削弱不重要区域。Feng使用局部二元模式(LBP)来提取脸部图像的纹理特征,对脸部区域分块计算LBP直方图,并连结起来作为表情识别的特征。Buciu

[18]

[17]

[16]

图2 特征点的几何关系(方形区域表示皱纹)Fig.2 Thegeometricalrelationshipoffeaturepoints(wheretherectanglesrepresentthefurrowsandwrinkle)

基于混合特征的一类重要方法是基于模型的方法。这类方法用模型的方式来描述人脸的结构,几何模型(点模型)也是一类简单的模型方法。活跃外貌模型(AAM)是目前广泛应用的一种人脸特

[24~27]

征提取的方法。AAM方法结合形状和纹理信息建立对人脸的参数化描述,然后再用PCA进行降维。Chang使用Hu提出的活跃小波网络(AWN)进行人脸的对准。与AAM中的纹理模型不同,AWN使用Gabor小波网络的表示方法来对纹理的变化进行建模,这一方法对部分阻挡和一些光照的变化有较好的鲁棒性。相对于基于外貌特征的方法,基于模型的方法可以得到更为可靠的人脸特征[28]

[29]

[23]

采用非负矩阵分解和局部非负矩阵分

解来提取图像特征,并得出局部非负矩阵分解的识别结果优于PCA方法的结论。

其他可归为外貌特征的方法还有:基于脸部不对称性的方法,基于不变矩的方法。[19]

Mitra对左右两边人脸图像提取密度的差异和边[19]

[20,21]

 1362中国图象图形学报第11卷

[34]

参数,但同时它也有计算较为复杂,而且初始点获取困难等缺点。

3.1.2 针对图像序列

基于图像序列的表情特征提取有两类方法,一类仅利用帧间信息进行特征的跟踪和定位,可称为基于帧内特征的方法,另一类不仅需要跟踪和定位,而且还利用帧间信息来作为表情识别的特征,可称为基于序列特征的方法。

(1)基于帧内特征的方法

在帧内提取特征的方法与静态图像使用的方法大致相同,因此主要讨论特征跟踪的方法。

①基于特征点跟踪的方法

基于特征点的跟踪通常只将特征点选在灰度变化较大的区域,例如眼角点,嘴角点等。这些点便于跟踪,从而可以进一步得到脸部特征的位移或形变信息。Zhang

[22]

响特征提取的结果。金辉等人在人脸面部物理-

几何结构模型的基础上,提取面部表情特征区域,通过光流估计计算其运动场,进而计算特征流向量,然后把一组图像序列的运动向量组成运动特征序列,对表情的运动进行分析。

②基于模型的方法

这类方法采用模型来跟踪人脸,并根据跟踪得到的模型参数和一些前后帧的信息来表示人脸的运动。Tao和Huang

[37]

提出一种基于BezierVolume的

跟踪系统,在第1帧用交互式的方法确定眼角和嘴角等标志性特征的位置,然后调整网状的3维模型来匹配选定的特征位置。在跟踪之后,用一些定义好的脸部运动单元(motionunit)来表示运动特征。这些运动单元不仅表示了人脸区域的运动有无,还表示了运动的方向和强度。应用这一模型及运动单元来提取特征的方法有文献[14]、[46]、[]。Gokturk使用3维的可变形人脸模型来进行人脸跟踪,然后用得出的形状向量及其在帧间的差异来作为表情识别的特征。3.2 特征降维和提取的方法

由于特征表示方法尤其是外貌特征的空间维数通常非常巨大,因此需要通过一些映射或变换将它们转换到低维的子空间来表示。这样不仅可以使特征的维数明显降低,同时这些低维空间特征的有效性也将得到提高。常用的特征降维及提取的方法有主元分析(PCA),线性判别分析(LDA),ICA等。这些方法在进行特征提取时各有优势,如PCA提取了最有代表性的特征,可以有效地消除冗余,降低维数,但它没有考虑不同类别数据之间的区分性。而LDA则通过最大化数据的类间离散度和最小化类内离散度来选择合适的投影方向,侧重于寻找具有最大分辨力的方向。近来,关于特征降维和提取的方法,也有一些新的研究。

Chen

[39][38]

分别结合Kalman滤波和红外(IR)

设备定位瞳孔两种方法来决定预测的特征位置,然

后在预测位置附近匹配两点之间Gabor核的相似度以检测特征的位置。由于IR设备的引入,该方法对大的头部运动也能得到鲁棒的跟踪结果。Bourel

[30]

手工选择12个特征点并进行跟踪,然后用基于状态

[31]

的特征选择方法来提取表情特征。Pardàs提出一种基于活跃轮廓的跟踪方法,可以提取人脸的特征并转换为MPEG编码方案中的人脸动画参数(FAPs)。

②基于模型跟踪的方法

不同于特征点的跟踪,基于模型的跟踪针对整个人脸。这里模型可以是2维或3维的,但大多数

[32]

模型都需要较复杂的计算。Braathen用3维模型跟踪自然场景中头部的转动,然后将人脸图像用3维变形的方法转换到规范的姿势,从而更方便地进行表情识别。

[33]

Huang使用多分辨率的3维可变形人脸模型来对人脸建模,并采用了多层次的跟踪方法。全局形变的跟踪由底层的数千个节点来完成,对于局部的纹理变化,用非刚性形状配准方法来进行获取。该方法适用于3维人脸深度扫描数据,可以对细微的表情细节进行提取和跟踪。

(2)基于序列特征的方法①基于光流的方法

光流反映了帧间运动的重要信息,在表情的动态分析中有较多的应用。基于光流方法的缺点在于,光照不均和脸部非刚性运动等因素将会影[34~36]

在LDA的基础上提出一种基于聚类的

判别分析,针对类内存在多种子类的情况,首先使用模糊C均值的方法进行聚类,然后以分离不同类的子类为目标,寻找最佳的投影方向。该方法对同一表情由于光照等变化产生类内多种聚类的情况,有较好的识别效果。

[40]

Dubussion首先对特征用PCA方法进行分析,然后按照主元对某一识别任务的重要性将它们进行排列,采用前向逐步选择的方法选择和保留最有区分性的k个主元方向,最后使用LDA对排列后第10期刘晓等:人脸表情识别研究的新进展 1363

的子空间进行计算,产生C-1维(C是分类的类别个数)的判别子空间进行分类。该方法称为排序PCA+LDA方法,可以对不同的识别任务建立最优

的子空间。

Zalewski引入了混合概率PCA的方法,与传统的PCA方法不同,概率PCA为PCA定义了一个概率模型,对于主元方向以外的信息并不是直接丢弃,而是作为高斯噪声进行估计,通过最大似然解方法来估计模型参数而得到最佳概率模型。该方法可以解决较大姿态变化带来的特征空间中非线性的分布,并可以结合贝叶斯判别方法进行表情识别。3.3 特征分解的方法

人脸图像包含了丰富的信息,对不同的识别任务来说,所利用的信息也各不相同。人脸检测寻找的是人脸图像共有的一致性,人脸识别需要利用表示人脸个体差异的信息,而表情识别则需要表示各种表情之间差异的信息,对一种识别任务有利的信息有可能反而对其他识别任务造成干扰。近来,一种新的解决思路是把人脸不同的因素如表情因素和个体因素分离开来,使得识别能够在相应的子空间中进行,避免其他因素的干扰。

[26]

Abboud提出用双线性模型的方法来进行人脸的外貌分解,首先使用AAM的方法获取人脸的特征参数,然后通过双线性分解模型的方法将人脸特征参数分解为与个体无关的表情分量以及与个体相关的线性映射的乘积。实验结果表明,该方法在训练样本数较少的情况下识别结果优于LDA方法。Wang将高阶奇异值分解(HOSVD)的方法用于脸部表情的分解。与双线性方法不同,HOSVD是一种多因素的分析方法,在人脸识别和运动分析中都有应用。该方法将不同人、不同表情的图像用一个3阶的张量来表示,3阶分别表示个体、表情和特征(用AAM提取特征)。对张量用HOSVD方法进行分解,得到个体子空间、表情子空间和特征子空间,如图3所示。训练时从包含7种表情的图像集合中得到人的个体子空间和表情子空间模型。这类方法由于分解了人脸各种不同的因素,不仅可以较好地应用于表情识别,也可以方便地进行人脸表情的合成,甚至增加新的因素来满足不同光照和不同角度的合成要求。

基于特征分解的方法在分类过程中需要对已知表情类别的样本库进行遍历搜索。首先假设测试样本的个体因素来自第1个训练的个体,分解得到相[24]

[25]

图3 脸部表情分解到人脸子空间、表情子空间和特征子空间Fig.3 Facialexpressiondecompositiontopersonsubspace,

expressionsubspace,featuresubspace

应的表情分量,计算测试样本表情分量与该训练样本表情分量的相似性(如余弦距离或欧式距离),对所有训练个体重复这一过程,最终将测试人脸分类到最相近的表情类别。

4 表情分类方法

表情分类指定义一组类别,并设计相应的分类机制对表情进行识别,归入相应类别。如按照脸部动作分类(FACS),将脸部的动作分类到44个AUs(actionunits);或按照感情分类,将表情分类到Ekman和Friesen定义的6种基本感情。根据是否利用时间信息来进行分析,人脸表情分类的方法可分为基于空间分析的方法和空时结合的方法两类。4.1 空间分析方法

4.1.1 基于专家规则(Expertrules)的方法这类方法从人的观察角度出发来制定一些规则,对特征提取得出的参数,判断它符合哪一类规则,将其归入相应的类别。Pantic

[7,8]

利用AU编码

来描述输入的表情,然后与每一种表情类别的AU编码描述进行比较,将其分类到最相近的一类基本表情中。使用这类方法的还有文献[41]、[42]。基于专家规则的方法可以更精确地描述人脸表情,从而更好地识别混合表情,同时由于它对表情进行了编码,因此便于进行人脸表情的合成。4.1.2 基于机器学习的方法

(1)人工神经网

人工神经网络在静态图像的人脸表情识别中有 13中国图象图形学报

[9,13,43,44]

第11卷

很多运用。Gueorguieva

[43]

使用多层感知的而特征选择则通过分类面法向量的分量个数来完成。在实验中该方法可以用很少的特征数目达到接近于SVM的识别正确率。

4.2 空时分析的方法

在以前的文献中,空时结合的分析方法还包括基于规则的推理以及循环神经网络等,但近几年的文献中,只有隐马尔科夫模型(HiddenMarkov

[20,32,35,46,50~52]

Model)被普遍采用。

Muller

[51]

神经网络来进行表情识别,训练并测试了4种网络,得出S形函数和径向基函数的神经单元混合能较好

[9]

地适合于前馈神经网络的结论。Ma在全脸图像中用2维离散余弦变换进行特征检测,然后用一个结构性单隐层的前馈神经网络作为表情分类器,效果比传统的神经网络好。神经网络方法的缺点在于,当识别很多无的混合表情时,对分类器的训练将会比较困难。

(2)贝叶斯分类

[45]

Sebe首先使用朴素(Naive)贝叶斯分类器进行表情的识别,并证明将特征分布的假设由高斯分布改为柯西分布可以提高分类的性能。朴素贝叶斯分类器的缺点在于,它假设特征之间是相互的,而事实上人脸的表情发生过程中,各特征的变化并不是完全的,而是存在着相互制约的关系。Cohen在柯西分布的贝叶斯分类器基础上,使用高斯树状分类器对特征之间的从属性进行建模。并且讨论了如何使用无标签的样本来训练贝叶斯网络分类器,从而在有标签样本数较少的情况下提高分类器的性能。Zhang采用一个3层的贝叶斯网络对脸部表情和脸部AU之间的因果关系进行建模,底层为可观察数据层,包括一些基本的特征数据,如眼、鼻、嘴、皱纹等等,中间层(即隐含层)为AU层,上层为表情层。同时结合HMM,从时间和空间关系上同时对表情进行建模。

(3)其他

支持向量机是在统计学习理论的基础上发展起来的一种分类方法,在解决小样本、非线性和高维问题上有很多优势。目前支持向量机是机器学习中应用最多的分类器之一,近年来也被应用于表情识别中。Adaboost方法将多个弱分类器结合起来训练形成强分类器,不同分类器针对不同的特征,通过训练可以达到特征选择的目的,在模式识别领域如图像检索和人脸检测中都有成功的应用。

[48]

Bartlett使用Adaboost选择特征与SVM分类相结合的AdaSVM方法进行分类,取得较好的识别结果。Wang

[15][10,48]

[47]

[22]

[46]

运用伪3维的隐马尔可夫模型

(P3DHMMs)进行动态人脸表情的分析。对序列中的每一幅图像用一个伪2维的隐马尔可夫模型(P2DHMM)进行建模,再用1D-HMM对时间状态进行建模,最后得到表示完整表情动作的P3DHMM。Yeasin提出两步分析法,首先将一系列线性分类器用于framelevel,每次观察结果结合起来产生时间信号,然后用这一时间信号作为训练数据训练离散HMMs。

用HMM方法进行识别需要确定其初始和结束的状态,因此一般用于单独的表情序列或分割好的表情序列。Cohen

[46]

[52]

提出多层次的HMM,第1层为分

别针对6种表情的6个HMM模型;第2层为表示6种表情之间状态变化的Markov模型。将单个表情HMM的状态输出联合起来作为高层Markov模型的输入,并通过训练得到6种表情之间的转移概率,从而可以自动将视频分割为不同的表情段进行分析。

5 人脸表情数据库及算法比较

目前在人脸表情识别研究中使用最广泛的是CMU的Cohn-Kanade数据库

[53]

,在很多研究中被列

为算法比较的标准。Cohn-Kanade数据库是基于AU编码的数据库,含有210个对象的大约2000个图像序列,每个人有一系列的脸部活动,包括单个AU或者AU组合。其次,日本ATR的女性表情数据库(JAFFE)也得到较多使用。JAFFE是以7种基本表情为基础的数据库,包括10位日本女性,每种表情有大约3、4幅图像,总共213幅图像。此外,还有一些数据库也可应用于人脸表情识别,如Ekman和Friesen的人脸表情数据库,Yale人脸数据库,Purdue的AR人脸数据库,CMU的PIE数据库等。

随着人脸表情识别研究的深入,出现了一些比

[,55]

较各种人脸表情识别算法的文献。例如,

[11]

用Adaboost方法训练查找表型的弱分类器

进行表情识别,在自己收集的数据库上的测试结果

略优于SVM。

Guo

[49]

提出特征选择线性规划的方法,将模式

分类的问题转化为最小化平均分类错误的1-范数

的问题,从而可以用线性规划的方法来进行求解。第10期刘晓等:人脸表情识别研究的新进展 1365

Sebe

[]

建立了一种在自然环境下的真实人脸表情因此,对哪个系统更为优越,很难给出一个统一的评价。表2给出了使用Cohn-Kanade数据库和JAFFE数据库的一些算法及其结果,对每一种算法列出了

相应的识别任务(AU或基本表情等),数据类型(静态、序列或序列中抽取若干帧),数据量,以及训练/测试比等实验的客观条件。测试结果中①表示该实验的测试集中的人不在训练集中出现,②则表示该实验测试集中的人可能在训练集中出现。为了对近年来识别方法的进展提供一个纵向的比较,表中也列出了一些经典的方法以及他们的测试结果参见文献[35]、[11]。

数据库,然后测试并比较了一系列基于机器学习理论的分类器,如贝叶斯分类器,决策树,SVM,KNN等。结果表明KNN的识别效果最好,但同时具有计算速度较慢并且空间复杂度较高的缺点。Littlewort系统比较了几种表情识别中的机器学习的方法,包括SVM,Adaboost,LDA,获得最佳识别效果的方法为基于Gabor小波特征的Adaboost与SVM结合的方法。

由于目前很多的人脸表情识别系统所报告的成果都是在不同的数据库、不同的实验设置上进行的,

[55]

表2 一些FER系统及其识别结果列举

Tab.2 SeveralexamplesofFERsystemsandtheirrecognitionresults

测试结果(%)

数据库

特征提取方法

分类方法

识别任务3种上部AU

HMM

7种下部AU

SVM分类器

5种上部AU和中性7种上部AU7种表情

PBVD跟踪人脸,提取运动

Cohn-Kanade

单元(MotionUnits)[46]PBVD跟踪人脸;提取几何特征+局部纹理特征[14]局部脸部不对称性的表示-不对称脸

[19]

数据类型序列序列不详每序列抽取二帧:开始,峰值

同上静态逐帧

①85~9281~9281.22

②———

数据量100~270序列25人

训练/测试比5∶8~4∶524∶1

光流、特征点跟踪、边缘检测3种方法[35]红外照相机检测虹膜,恢复眼眉区域形状参数

[10]

Boosting方法定位特征,提取Gabor幅值[55]

SVM分类器

92.993.373.22

———

90人,625帧

贝叶斯网络7种表情53人1∶4重复

混合高斯模型(GMM),在线的基于EM的适应算法有序前向特征选择算法与线性判别分析(LDA)

4种表情静态逐帧75.487.6

47人,2981帧55人

①6∶4②1∶1

3种表情(高兴、愤怒、沮丧)6种表情

每序列抽取3帧:FNR3.6开始,中间,峰值

序列已分割序列

FPR1.8848190.9

—————

6∶5重复

ACM跟踪,转换为

FAPs[31]

半连续HMM

6种表情+“说话”

90人∶1重复

连续序列序列

图像序列的光流[52]手工标定34个点+18个

Gabor滤波器

[11]

两步法:kNN+HMMs6种表情6种基本表情+

中性6种基本表情+

中性6种基本表情+

中性6种基本表情+

中性

97人,488序列9个人,193帧9个人

—①9∶1②8∶18∶1重复

LDA静态显著表情7592

HOLA特征+Fisher加权映射

JAFFE

局部二元模式(LBP)[17]手工标定的34个特征点+18个Gabor滤波器[49]

[16]

Fisher线性判别改进的模版匹配法,

两步分类特征选择线性规划法

静态显著表情69.4—

静态显著表情77—9个人8∶1重复

静态显著表情—91.010个人9∶1重复

 1366中国图象图形学报第11卷

的表情。对混和表情、表情的强度方面,目前的研究

6 讨论与总结

通过前面几节的介绍,可以看出人脸表情识别方面的研究取得了很多进展,但从识别系统的性能来看,与实用化还有一定的距离。目前看来,FER系统的性能主要受到以下几个方面的:

(1)特征提取的方法存在一些缺陷,很多模型的方法需要手工介入来标定一些点或区域,外貌特征的方法不需要手工帮助,但提取出的信息往往不够可靠而且易受干扰;

(2)某些表情易于识别,而某些表情不易识别,心理学方面的研究认为,最容易辨认的表情是快乐、痛苦,较难辨认的是恐惧、悲哀,更难辨认的是怀疑、怜悯,在FER系统中也面临着对某些类别的表情识别率偏低的情况;

(3)目前的研究大多数都针对特定条件下采集的图像或者图像序列。但要做到对任意采集的图像或图像序列都适应,还需要人脸检测等其他领域的发展。

虽然受到一些因素的影响,国内外研究者们仍提出了很多思路,力图在这些方面有所突破。对本文介绍的一些方法进行总结,可以得出近来FER研究的几个热点,也是未来可能的发展方向:

(1)由于人脸表情变化表现在图像上会产生多种不同的变化,如五官位置、形状,以及细微的皮肤纹理、阴影等,因此将多种特征混合起来,可以最大限度地利用表情变化产生的信息,更完整地表示表情,混合法将成为特征获取中的一个重点;

(2)由于模型的方法往往需要手工的帮助,因此外貌特征就被较多地应用于自动的FER系统。由此带来的问题是特征维数可能很高,而且特征的有效性不高。因此特征降维、提取和选择等方法的研究也成为一个重点;

(3)近年随着机器学习领域的发展,越来越多的机器学习方法被用于表情的识别和分类,并取得了较好的结果,这也应是未来识别方法的主流。但同时人的表情是有一定的心理学规律可循的,是否可以将心理学和生物学知识与机器学习的方法相结合来提高分类的性能,这是有待研究的问题;

(4)在目前的人脸表情识别系统中,往往是对比较夸张的表情进行分析和识别。但在实际的生活中,很多表情可能是混和的表情,或者并不是很夸张还非常的缺乏。已经有研究针对表情的强度方面做了一些尝试,但研究仍然处于初级阶段;

(5)人脸表情会受到多种因素的影响,如光照、姿态变化,脸部阻挡等。针对脸部出现阻挡的情况,有一些初步的研究

[22,56]

,但与实际情况还有一定距

离。在目前的研究中,针对光照和姿势的变化,一般都采用3维人脸建模的方法来解决。但目前3维人脸建模的技术尚不能达到自动建模的要求。同时,精度也受到一定的。另外,特征分解是解决这类问题的一种新方法,但这方面的研究刚刚出现,有待进一步发展。

参考文献(References)

1 MehrabianA.Communicationwithoutwords[J].PsychologyToday,

1968,2(4):53~56.

2 DarwinC.TheExpressionoftheEmotionsinManandAnimals[M].

London:J.Murray,1872.

3 EkmanP,FriesenWV.FacialActionCodingSystem:ATechnique

fortheMeasurementofFacialMovement[M].PaloAlto:ConsultingPsychologistsPress,1978.

4 PanticM,RothkrantzL.Automaticanalysisoffacialexpressions:the

stateoftheart[J].

IEEETransactionsonPatternAnalysisand

MachineIntelligence,2000,22(12):1424~1445.

5 FaselB,LuettinJ.Automaticfacialexpressionanalysis:Asurvey

[J].PatternRecognition,2003,36(1):259~275.

6 YangM,KriegmanDJ,AhujaN.Detectingfacesinimages:A

survey[J].7 PanticM,

IEEETransactionsonPatternAnalysisandMachineRothkrantzL.

Facialactionrecognitionforfacial

Intelligence,2002,24(1):34~58.

expressionanalysisfromstaticfaceimages[J].IEEETransactionsonSystems,ManandCybernetics-PartB,2004,34(3):1449~1461.8 PanticM,RothkrantzL.Expertsystemforautomaticanalysisoffacial

expression[J].905.

9 MaL,KhorasaniK.Facialexpressionrecognitionusingconstructive

feedforwardneuralnetworks[J].IEEETransactionsonSystems,ManandCybernetics,PartB,2004,34(3):1588~1595.

10KapoorA,QiY,PicardRW.Fullyautomaticupperfacialaction

recognition[A].2003:195~202.

11LyonsM,BudynekJ,AkamastuS.Automaticclassificationofsingle

facialimages[J].

IEEETransactionsonPatternAnalysisand

MachineIntelligence,1999,21(12):1357~1362.

12DonatoG,BartlettS,HagerC,etal.Classifyingfacialactions[J].

IEEETransactionsonPatternAnalysisandMachineIntelligence,1999,21(10):974~9.

In:ProceedingsIEEEInternationalWorkshopon.

AnalysisandModelingofFacesandGestures[C],Nice,France,

mageVisionComputing,2000,18(11):881~I

第10期刘晓等:人脸表情识别研究的新进展

UK,2004,4:163~166.27ZuoKun-long,

LiuWen-yao.

 1367

13TianY,KanadeT,CohnJ.EvaluationofGaborwavelet-basedfacial

actionunitrecognitioninimagesequencesofincreasingcomplexity[A].In:ProceedingsofIEEEInternationalConferenceonAutomaticFaceandGestureRecognition[C],Washington,DC,USA,2002:26~30.

14WenZ,HuangT.Capturingsubtlefacialmotionsin3dfacetracking[A].In:ProceedingsofIEEEInternationalConferenceonComputerVision[C],Nice,France,2003,2:1343~1350.

15WangY,AiH,WuB,etal.Realtimefacialexpressionrecognitionwithadaboost[A].

In:ProceedingsofInternationalConferenceon

Facialexpressionrecognitionusingfisher

PatternRecognition[C],Cambridge,UK,2004,3:926~929.16ShinoharaY,OtsuN.

weightmaps[A].In:ProceedingsofIEEEConferenceonAutomaticFaceandGestureRecognition[C],Seoul,Korea,2004:499~504.17FengX.Facialexpressionrecognitionbasedonlocalbinarypatterns

andcoarse-to-fineclassification[A].In:ProceedingsofInternationalConferenceonComputerandInformationTechnology[C],Wuhan,China,2004:178~183.

18BuciuI,PitasI.Applicationofnon-negativeandlocalnonnegativematrixfactorizationtofacialexpressionrecognition[A].Cambridge,UK,2004,1:288~291.

19MitraS,LiuY.Localfacialasymmetryforexpressionclassification[A].In:ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition[C],2:8~4.

20ZhuY,DeSilvaLC,KoCC.UsingmomentinvariantsandHMMin

facialexpressionrecognition[J].PatternRecognitionLetters,2002,23(1-3):83~91.

21JiangLu,ZhangPin-zheng,ShuHua-zhong.Momentapplicationto

humanfacialexpressionrecognition[J].

JournalofSoutheast

University(NaturalScienceEdition),2004,34(4):557~560.[姜璐,章品正,舒华忠.矩在面部表情识别中的应用[J].东南大学学报,2004,34(4):557~560.]22ZhangY,

JiQ.Activeanddynamicinformationfusionforfacial

magesequences[J].i

IEEE

expressionunderstandingfrom27(5):699~714.

23CootesTF,EdwardsGJ,TaylorCJ.Activeappearancemodels[A].In:Proceedingsofthe5thEuropeanConferenceonComputerVision[C],Freiburg,Germany,1998,2:484~498.24WangH,

AhujaN.

Facialexpressiondecomposition[A].

In:

ProceedingsofIEEEInternationalConferenceonComputerVision[C],Nice,France,2003,2:958~965.

25ZalewskiL,GongS.Synthesisandrecognitionoffacia.lexpressions

invirtual3Dviews[A].In:ProceedingsofIEEE6thInternationalConferenceonAutomaticFaceandGestureRecognition[C],Seoul,Korea,2004:493~498.26AbboudB,

DavoineF.

Appearancefactorizationbasedfacial

In:Proceedingsof

expressionrecognitionandsynthesis[A].

Washington,

DC,

USA,

2004,In:

ProceedingsofInternationalConferenceonPatternRecognition[C],

FacialexpressionrecognitionusingJournalofOptoelectronicsLaser,

activeappearancemodels[J].

2004,15(7):853~857.[左坤隆,刘文耀.基于活动外观模型的人脸表情分析与识别[J].光电子激光,2004,15(7):853~857.]28ChangY,

HuC,

TurkM.

Probabilisticexpressionanalysison

manifolds[A].

In:ProceedingsofInternationalConferenceon

ComputerVisionandPatternRecognition[C],WashingtonDC,USA,2004,2:520~527.

29HuC,FerisR,TurkM.Real-timeview-basedfacealignmentusing

activewaveletnetworks[A].In:ProceedingsofIEEEInternationalWorkshoponAnalysisandModelingofFacesandGestures[C],Nice,France,2003:215~221.30BourelF,ChibelushiCC,

LowAA.

Robustfacialexpression

eecognitionusingastate-basedmodelofspatially-localizedfacialdynamics[A].In:ProceedingsofIEEEInternationalConferenceonAutomaticFaceandGestureRecognition[C],Washington,DC,USA,2002:106~111.

31PardàsM,BonafonteA,LandabasoJL.Emotion.recognitionbased

onMPEG4facialanimationparameters[A].In:ProceedingsofIEEEAcoustics,Speech,andSignalProcessing[C],Orlando,FL,USA,2002,4:3624~3627.32BraathenB,

BartlettMS,

LittlewortG,

etal.Anapproachto

In:

automaticrecognitionofspontaneousfacialactions[A].

ProceedingsofIEEEInternationalConferenceonAutomaticFaceandGestureRecognition[C],Washington,DC,USA,2002:231~235.33HuangX,ZhangS,WangY,etal.Ahierarchicalframeworkfor

highresolutionfacialexpressiontracking[A].

In:Proceedingsof

IEEEConferenceonComputerVisionandPatternRecognitionWorkshop[C],Washington,DC,USA,2004:22~22.

34JinHui,GaoWen.Analysisandapplicationofthefacialexpressionmotionsbasedoneigen-flow[J].

JournalofSoftware,

2003,

14(12):2098~2105.[金辉,高文.基于特征流的面部表情运动分析及应用[J].软件学报,2003,14(12):2098~2105.]35LienJ.AutomaticRecognitionofFacialExpressionUsingHiddenMarkovModelsandEstimationofExpressionPittsburgh:TheRoboticsInstitute,CMU,1998.36MinamitaniH,

HoshinoY,

HashimotoH,

etal.

ComputerizedInternational

diagnosisoffacialnervepalsybasedonopticalflowanalysisoffacialexpressions[A].

In:ProceedingsoftheIEEE

ConferenceofEngineeringinMedicineandBiologySociety[C],Cancun,Mexico,2003:663~666.

37TaoH,HuangT.Explanation-basedfacialmotiontrackingusinga

piecewiseBeziervolumedeformationmodel[A].In:ProceedingsofIEEEComputerSocietyConferenceonComputerVisionandPatternRecognition[C],Collins,CO,USA,1999:23~25.38GokturkSB,BouguetJY,TomasiC,

etal.Model-basedface

trackingforview-independentfacialexpressionrecognition[A].In:ProceedingsofIEEEInternationalConferenceonAutomaticFaceandGestureRecognition[C],Washington,DC,USA,2002:272~278.

Intensity[D].

TransactionsonPatternAnalysisandMachineIntelligence,2005,

InternationalConferenceonPatternRecognition[C],Cambridge,

 1368中国图象图形学报

[A].

第11卷

In:ProceedingsofIEEEComputerSocietyConferenceon

SanDiego,CA,

39ChenX,HuangT.Facialexpressionrecognition:aclusteringbased

approach[J].1295~1302.

40DubuissonS,DevoineF,MassonM.Asolutionforfacialexpression

representationandrecognition[J].41MatsuguM,MoriK,MitariY,etal.

SignalProcessing:ImageSubjectindependentfacial

Communication,2002,17(9):657~673.

expressionrecognitionwithrobustfacedetectionusingaconvolutionalneuralnetwork[J].NeuralNetworks,2003,16(5-6):555~559.42HanedaK,MuraguchiT,NakamuraO.

expressionsusingexpertsystem[A].Montreal,Canada,2003,2:1195~1198.

43GueorguievaN,GeorgievG,ValovaI.Facialexpressionrecognition

usingfeedforwardneuralnetworks[A].NV,USA,2003:285~291.44SeyedarabiH,

AghagolzadehA,

KhanmohammadiS,

etal.

In:

Recognitionofsixbasicfacialexpressionsbyfeature-pointstrackingusingRBFneuralnetworkandfuzzyinferencesystem[A].Expo[C],Taipei,Taiwan,China,2004:1219~1222.

45SebeN,CohenI,GargA,etal.EmotionrecognitionusingaCauchy

naiveBayesClassifier[A].2002,1:17~20.

46CohenI,SebeN,GargA,etal.Facialexpressionrecognitionfrom

videosequences:Temporalandstaticmodeling[J].ComputerVisionandImageUnderstanding,2003,91(1-2):160~187.

47CohenI,SebeN,CozmanFG,etal.Learningbayesiannetwork

classifiersforfacialexpression.unlabeleddata[A].

recognitionwithbothlabeledand

In:ProceedingsofInternationalConferenceon

In:ProceedingsofInternational

QuébecCity,

Canada,

ConferenceonPatternRecognition[C],

ProceedingsofIEEEInternationalConferenceonMultimediaand

In:Proceedingsofthe

LasVegas,

InternationalConferenceonArtificialIntelligence[C],

TherecognitionoffacialIn:ProceedingsofIEEE

PatternRecognitionLetters,

2003,

24(9-10):

ComputerVisionandPatternRecognition[C],USA,2005,2:568~573.

49GuoGD,DyerCR.Learningfromexamplesinthesmallsample

case:faceexpressionrecognition[J].IEEETransactionsonSystem,ManandCybernetics-PartB,SpecialIssueonLearninginComputerVisionandPatternRecognition,2005,35(3):477~488.

50JinHui,GaoWen.Analysisandrecognitionoffacialexpression

magesequencesbasedonHMM[J].ActaAutomaticaSinica,2002,i

28(4):6~650.[金辉,高文.基于HMM的面部表情图像序列的分析与识别[J].自动化学报,2002,28(4):6~650.]51MullerS,WallhoffF,HulskenF,etal.Facialexpressionrecognition

usingpseudo3-DhiddenMarkovmodels[A].Canada,2002,2:32~35.

52YeasinM,BullotB,SharmaR.Fromfacialexpressiontolevelof

interest:aspatio-temporalapproach[A].

In:Proceedingsof

InternationalConferenceonComputerVisionandPatternRecognition[C],Washington,DC,USA,2004,2:922~927.53KanadeT,CohnJF,

TianY.Comprehensivedatabaseforfacial

expressionanalysis[A].In:ProceedingsoftheFourthInternationalConferenceofFaceandGestureRecognition[C],Grenoble,France,2000:46~53.

SebeN,LewM,CohenI,etal.Authenticfacialexpressionanalysis

[A].In:ProceedingsofInternationalConferenceonAutomaticFaceandGestureRecognition[C],Seoul,Korea,2004:517~522.55LittlewortG,BartlettM,FaselI,etal.Dynamicsoffacialexpression

extractedautomaticallyfromvideo[A].

In:ProceedingsofIEEE

ConferenceonComputerVisionandPatternRecognition,WorkshoponFaceProcessinginVideo[C],WashingtonDC,USA,2004:80~80.

56BuciuL,KotsiaI,PitasI.Facialexpressionanalysisunderpartial

occlusion[A].In:ProceedingsofIEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing[C],Philadelphia,PA,USA,2005,5:453~456.

In:Proceedingsof

InternationalConferenceonPatternRecognition[C],QuébecCity,

CanadianConferenceonElectricalandComputerEngineering[C],

ComputerVisionandPatternRecognition[C],Madison,Wisconsin,USA,2003,1:595~604.48BartlettMS,

LittlewortG,

FrankM,

etal.

Recognizingfacial

expression:machinelearningandapplicationtospontaneousbehavior

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务