基于特征融合与选择的小样本表情识别

王从澳, 黄润才, 孙延标, 杨 彬, 孙刘成

(上海工程技术大学 电子电气工程学院,上海 201600)

面部表情识别是计算机视觉领域的一个重要研究方向。近年来,基于计算机的人脸情感识别应用越来越广泛,如人机交互(human computer interaction,HCI)、商业产品、医学研究等。在HCI领域,以人为中心的计算机系统不仅能够根据用户输入做出响应,还可以根据用户行为做出响应。在商业应用领域,如驾驶员疲劳检测系统、游戏、视频等娱乐系统。在医学研究领域,通常用于临床抑郁症的识别,疼痛评估以及行为和神经科学的研究。

传统的人脸表情识别方法依赖于从人脸图像中手工提取的面部情感特征。应用广泛的手工特征提取方法包括方向梯度直方图[1](histogram of oriented gradients,HOG),线性二进制模式(linear binary pattern,LBP),局部相位量化[2](local phase quantization,LPQ)等。Abdulrahman M等人[3]首先提取面部手工特征,然后按顺序进行面部动作单元编码,最后输入支持向量机(support vector machine,SVM)分类器中进行识别。

在过去几年中,基于深度学习(deep learning,DL)的技术在解决一系列计算机视觉问题中表现突出,例如目标识别、医学图像分析和运动分析等。其中,Jain D K等人[4]提出了一种基于多角度的最优模式深度学习(multi-angle optimal pattern deep learning,MAOPDL)技术,通过使用基于多角度的最优配置对特征集进行适当的对齐,从而克服了照明突变等问题。但是深度卷积神经网络的训练依赖大量的样本数据,因此,针对小样本的表情识别,往往会出现过拟合现象,严重影响模型的识别准确率。

深度学习技术能够自动提取面部的深层次情感特征,而基于面部界标点的外观特征能够提供表情变化期间面部不同关键点位置的细节特征。基于此,本文提出了一种融合手工特征[5]和深度学习特征的特征选择算法,只需要采用少量训练样本就能够实现较理想的人脸表情精准识别。

本文提出基于特征融合与选择算法进行小样本人脸表情识别,该算法模型包含4个部分,即特征提取模块,特征融合模块,特征约简与选择模块和分类模块。

1.1 算法网络结构

根据人脸情感表达所涉及的关键区域进行68个特征点标记,提取眼睛和嘴巴部位的6个主要特征向量作为人脸几何特征,同时利用迁移学习的思想通过DenseNet网络[6]进行学习,提取面部表达的更深层次特征,使用串联融合的方式对面部几何特征与深度特征进行融合,生成完整的面部表情特征向量。然后对融合特征向量进行特征约简和选择,降低特征向量的复杂性和冗余度。再使用多分类支持向量机(multi-class SVM,MCSVM)做最后的情感分类,识别出7种不同的表情类别。该算法模型的系统流程如图1所示。

图1 算法流程

1.2 人脸关键区域几何特征

首先,需要对图片中的人脸进行检测,通过Dlib库函数识别人脸关键区域的68个特征点[7]坐标;
然后,使用眼睛和嘴巴周围的特征点进行面部几何特征提取。选择眼部靠近鼻子的最近点40#和43#坐标,以及鼻子的最低点34#坐标作为固定点。从固定点出发,计算区域关键点到该点的欧氏距离作为情感特征表征值。图2显示了68个坐标点,线段表示选择标记点对的距离。

图2 人脸68个特征点坐标

使用眉毛部位的8个坐标点和嘴巴部位的6个坐标点进行特征值计算,为了减少外界因素影响,本文对各点坐标距离进行归一化处理。为了规范左眉毛特征表征距离,将所有计算出的距离除以40#和22#坐标点之间的距离。类似地,在右眉上,使用43#和23#坐标距离进行规范化。最后使用34#和52#之间距离标准化嘴巴宽度,嘴巴高度和嘴唇顶部坐标,组合左眉、右眉、左上唇和右上唇的这些欧氏距离以创建包含6个表征值的总特征向量。

首先,计算左眉的归一化特征向量

(1)

Nleft=D(Eleft1,Eleft2)

(2)

等式(1)表示左眉相关特征值的计算过程,等式(2)表示左眉归一化距离。其中,Eleft1为40#坐标点,Eleft2为22#坐标点,D(Eleft1,i)为给定两坐标点(x,y)坐标以计算其欧氏距离,i=[19,20,21,22]。

左唇的特征值表征类似

(3)

Nlips=D(C1,C2)

(4)

式中C1为鼻尖坐标点34#,C2为嘴唇中点52#坐标,i=[49,50,51]。

类似地,使用不同i值,但归一化距离与左侧唇归一化距离相同。对于宽度(width)和高度(height)值,将分别计算坐标点(49,55)和(52,58)之间的距离,并使用相同的lips值进行归一化,最后创建总的面部几何特征向量

Feature=〈Eyeleft,Eyeright,Lipleft,Lipright,Mouthleft,

Mouthright〉

(5)

对于图像中性姿势脸和顶点姿势脸都分别计算方程式(5)中的特征向量,并计算顶点和中性的向量差,作为面部关键区域的几何特征向量。

1.3 深度特征提取

卷积神经网络(convolutional neural network,CNN)随着网络深度的增加,其梯度和层数会越来越深。其梯度在到达网络的最后一层之前就消失了,该梯度消失问题会严重影响神经网络的学习。ResNets和Highway等网络使用跳过连接来克服梯度消失问题。但是在小样本的表情识别过程中,微小的梯度信息在识别中起着至关重要的作用,因此,必须以更复杂的方式保存其梯度信息。

DenseNet网络通过使用各层之间的前馈连接,从而克服了梯度消失问题。如图3所示,网络中,一个块(block)的每一层都连接着它的后续层,并且所有特征在进入下一个块之前被串联起来,因此DenseNet消除了梯度消失问题,通过鼓励特征复用增强在网络中的传播功能,改进了梯度流在整个网络中的信息传递。该网络模型采用concat的形式进行连接,公式表示为

Xl=Hl(X0,X1,…,XL-1)

(6)

式中Hl为一个组合函数,主要包括BN,ReLU,Poolong,Conv等操作。所有的层输入来源于前面所有层在Channel维度的Concat。

图3 DenseNet网络结构

实验采用DenseNet169进行分类,采用微调技术来加快模型训练。首先,冻结模型的最初几层权重,仅训练模型的最高层;
然后,利用2个全连接层对原网络进行替换。实验的最小批次设置为256,损失函数为分类交叉熵函数,采用自适应梯度优化算法Adam进行优化,学习率初始化为0.1,每15 000次迭代将学习率除以10,该模型共训练了20个批次。同时,为了解决样本量不足的问题,引入Dropout正则化,进而提升模型分类性能和泛化特性。

1.4 特征融合

在人脸关键区域的手工特征提取中,为了最大程度让提取的特征值能够体现某一特定情绪的特点,算法通过计算人脸“中立”与“巅峰”时刻两组特征点的欧氏距离作为变量表示采样点的特征信息。变量转换如下

β=Tmax-Tmin

(7)

然后将手工提取的特征向量与深度学习的特征向量进行串联融合[8],并将融合后的特征描述符送入特征选择模块进行熵减和选择。

在上一步提取了DenseNet的最后一个卷积层特征,并利用全局平均池化来降低深度特征的维数。平均池化完成后,将7×7×2 048个特征向量映射到1×1×2 048个特征图中。因为基于欧氏距离的手工特征和深度特征位于不同的空间,所以,需要将深层特征和手工特征分别进行归一化,完成后再进行串联融合,得出4 326个总的特征向量。

针对融合后的特征向量冗余度高、复杂性强等问题,提出一种新的基于熵的特征约简技术[6]。该技术可以基于高熵值来约简特征向量,首先,需要计算融合特征的向量熵值,从而给出一个新的熵特征向量;
之后,将熵向量按照升序排序并计算其概率值,概率值较高的向量用于支持阈值功能。阈值函数用于根据较高的概率特征值删除不相关的特征,熵方法的计算定义如下:

记融合后特征向量为ξFd(FV),尺寸大小为ξM×4 096(FV),其中,M表示测试样本的总数,每个FV(i)和FV(i,j)的熵值计算公式为

E(FV(i))=-∑iP(Fvi)log2(P(Fvi))

(8)

E(FV(i,j))=-∑jP(Fvj)∑iP(Fvi│Fvj)

log2(P(Fvi│Fvj))

(9)

式中P(Fvi)为融合特征向量的先验概率,P(Fvi│Fvj)为δFd(FV)所有特征的后验概率,而E(FV(i,j))为熵向量。然后,将E(FV(i,j))进行升序排序,并计算其概率值,从中选择最高概率(MHP)特征,MHP表示阈值函数,低于MHP值的特征将被丢弃到融合矢量中

(10)

式中P(E(FV))为MHP值,SL为选定特征,DC为丢弃特征。之后执行CHI2以选择最佳特征,因为在特征约简之后,一些不相关的特征仍然保留在约简向量R(FV)中。因此,选择一种基于CHI2的特征选择算法,该方法能够准确测量特征之间的关联度

(11)

式中χ2(FV)为选定的特征向量,然后使用MCSVM进行分类。RBF内核函数用于分类。定义如下

K(ξ(i),ξ(j))=exp(-λ‖ξ(i)-ξ(j)‖2)

(12)

式中λ>0,该方法能够对最佳特征向量进行有效标记和筛选。

为了评估算法模型的分类性能,需要对数据集进行10倍交叉验证[8],并将MCSVM与其他算法分类器进行对比,例如线性SVM(linear SVM,LSVM),三次SVM(cubic SVM,CSVM),精细K最近邻(fine KNN,FKNN)和加权KNN(weighting KNN,WKNN)等。分类器性能对比指标有正确识别率(correct recognition rate,CRR),灵敏度,假阴性率(false negative rate,FNR),假阳性率(false positive rate,FPR)和曲线下面积(area under the curve,AUC)等。

图4列出了不同分类算法在CK+数据集上对各类表情的测试CRR,结果表明,MCSVM分类器的平均最大CRR为95 %,与其他分类器相比具有更好的分类效果。

图4 不同分类算法在CK+上的对比统计

由图4可知,图中5 条曲线分别代表LSVM分类器,CSVM分类器,MCSVM分类器,FKNN分类器和WKNN分类器在CK+人脸表情数据集上的9次实验结果对比图。从图中可以看出,MCSVM分类器的平均识别准确率要高于其他四个分类器,因此,MCSVM算法更适用于本文人脸表情的识别与分类。

4.1 实验环境

本文提出的算法模型采用Tensorflow框架进行设计和实现。实验程序的计算机运行配置为Windows10专业版操作系统,采用i7核心处理器和NVIDIA GE—Force(1070—Ti 4GB—256位)的GPU,内含16GB DDR5 RAM以及64位操作系统等。

4.2 JAFFE数据集实验结果

为了验证提出方法的有效性,在JAFFE和CK+两个著名的人脸表情数据集上对提出的融合算法进行评估,并将识别结果与最新的实验方法进行对比。

其中,JAFFE数据集是日本ATR机构用于人脸表情识别研究的标准数据集,其中包含213幅日本女性的不同姿态面部表情,表情库中共有10个人,每个人有7种不同的表情样本。图5展示了该数据库中不同表情的样本图像。按照十折交叉验证的方法对213个数据样本进行训练和测试。表1列出了本文融合算法模型在该数据集下的识别混淆矩阵。

图5 JAFFE数据集中的样本图像

表1 本文融合算法在JAFFE数据集上的混淆矩阵 %

从混淆矩阵中,可以推断,本文的融合模型在“高兴”和“悲伤”表情中表现良好,而在“失望”“中立”和“愤怒”这些情感表达的识别中存在混淆。不过综合来看,本文算法模型在JAFFE数据集上能够达到98.57 %的平均识别准确率。

4.3 CK+数据集实验结果

CK+数据集包含从123个对象中收集的593个图像序列,每个图像序列从中性脸逐渐达到表情巅峰。本文对于每一类情感表达的状态,本文选择具有峰值信息的最后3个帧作为训练数据。图6显示了CK+数据库中不同表情的样本图像。

图6 CK+数据集中的样本图像

类比JAFFE数据集,本文同样按照十折交叉验证的方法对样本数据进行训练和测试。表2列出了本文融合算法模型在CK+数据集上的识别混淆矩阵。

表2 本文融合算法在CK+数据集上的混淆矩阵 %

由混淆矩阵可以看出,本文的融合算法对CK+数据集上“高兴”和“惊讶”表情的识别准确率最高,能够达到100 %的识别精度,而在“愤怒”和“中立”表情中容易出现混淆。总而言之,在该数据集上的平均识别准确率能够高达99.2 %。

表3显示,本文融合算法(GF)与其他最新算法如SRC(稀疏表达分类)、IL(岛屿缺失)函数、EB/OL(电子文献)、SIFT-AVG(平均特征匹配)在JAFFE和CK+数据集上的性能对比,对比结果显示,较单一的手工特征提取和深度学习特征提取,本文的特征融合算法能够显著提升模型的识别能力。其中,基于熵的特征约简和选择技术大大降低了模型参数和计算复杂度等,有效提升了网络的识别效率和识别准确率。

表3 不同算法在JAFFE和CK+上的性能对比 %

本文提出了一种基于特征融合与选择的人脸表情识别算法,该算法融合了手工提取的人脸关键区域几何特征和DenseNet网络提取的面部深层次情感特征,然后利用一种基于熵的特征约简技术对融合后的特征向量进行降维,并使用MCSVM进行表情分类。利用标准的小样本数据集JAFFE和CK+对所提方法进行实验评估,结果显示,该融合算法优于许多现有的深度学习算法,能够在样本量较小的前提下,进一步提升表情识别的准确率。

下一步的研究计划将在本文融合算法的基础上继续改进算法体系结构,使其具有更广的泛化能力和鲁棒特性,能够适用于视频数据[14],3D人脸数据集和深度图像数据等。并努力探索更好的深度学习算法来增强网络的识别性能。

猜你喜欢 集上特征向量分类器 引入注意力机制的AdaBoost算法计算机仿真(2022年7期)2022-08-22少样本条件下基于K-最近邻及多分类器协同的样本扩增分类现代电子技术(2022年15期)2022-07-28学贯中西(6):阐述ML分类器的工作流程电子产品世界(2022年4期)2022-04-21高中数学特征值和特征向量解题策略中学生理科应试(2021年11期)2021-12-09三个高阶微分方程的解法研究数学学习与研究(2018年15期)2018-11-12基于AdaBoost算法的在线连续极限学习机集成算法软件导刊(2017年4期)2017-06-20氨基酸序列特征向量提取方法的探讨电脑知识与技术(2016年22期)2016-10-31师如明灯,清凉温润文苑(2015年9期)2015-09-10几道导数题引发的解题思考新课程学习·中(2013年3期)2013-06-142008年高考考前模拟试题(二)及略解中学数学研究(2008年3期)2008-12-09

推荐访问:样本 融合 识别