基于深度学习的图像人脸识别方法研究

张宝薪，孟凡轩，靳展

基于深度学习的图像人脸识别方法研究

张宝薪，孟凡轩，靳展＊

（齐齐哈尔大学通信与电子工程学院，黑龙江齐齐哈尔 161000）

使用计算机进行面部表情识别是当前人脸面部表情识别的热点，在深度学习技术的基础上，应用级联分类器对面部进行整体检测和分区定位后，提出并使用了一种基于自注意力机制的深度卷积神经网络，模型采用Mini-Xception为基本网络融合了注意力机制，再通过训练卷积神经网络构建表情分类模型，最后实现较为快速准确的表情识别。文中采用几种方法进行实验对比，并对最终的实验结果加以分析。结果表明，在相同的参数设置下提出的方法能明显提高分类性能、识别的精准度以及面部表情变化检测的实时速度。

深度学习；
卷积神经网络；
图像分类；
图像识别

人类的表情复杂多变，喜怒形于色说的就是表情是人们表达内心情绪最直接有效的方式之一，所以对于人脸表情识别技术方向的研究被一致认为是未来人机情感交互的重要发展对象[1]。

经过心理学专家们的不断研究实验发现，人类面部的情绪表达大体可以归为六种，分别是：厌恶（Disgust)、生气（Angry）、高兴（Happiness）、恐惧（Fear）、悲伤（Sadness），以及惊讶（Surprise）[2], 在实际复杂的生活情况下为了和无表情有所区分，一般还增加一类：正常（Neutral），共计7种基础表情，如图1所示。在这个时代站在潮流顶端的技术无疑是人工智能，在这个领域中本文提出的人脸表情识别技术更是在医疗、家居、刑侦等多方面表现出极高的效率，这项技术作为目前研究的热点，其关键在于图像预处理、人脸检测和表情分类[3]这三部分，如图2所示。

图1 常见的7种人脸表情

图2 人脸表情识别步骤

通过图片采集捕获大量可供实验的案例，图片预处理阶段，为了简化输入图片的处理过程，首先会调整图片的尺寸以及色彩，然后经由预处理，对光亮，视角，模糊色彩等一系列无关于模型处理的因素进行一定程度的消除；
然后将结果放入输入模型进行训练，强化模型的识别精确。为了用于提高表情识别的效果，第一步需要确定人脸在图中的位置，图中的人脸检测就是利用部分人脸检测算法，对图片进行多区块，多尺度的检测，最后得到一个或者多个人脸所在对象的位置。

在研究过程中，首先需要进行特征工程的处理，然后利用分类算法对表情进行分类，手工提取特征的方法虽然对于单个简单的问题能够快速解决，但是对于相对复杂的情况则有人工成本以及适应度等因素需要考虑，而本项目致力于采用深度学习的方法，通过训练卷积神经网络构建表情分类模型并结合注意力机制，以用来实现高效率的人脸表情识别。

当系统捕获到一张图像数据时，首先使用人脸检测判断，该图像是否存在面部以及多张面部的存在情况，如果存在则对一张或多张人脸的位置进行定位，如果图像中不存在人脸，则返回一个提示信息；
而后在相机设备捕获到人脸面部图像后，利用Haar特征和Adabsot级联分类器对捕获到的图像进行分类检测，本文中所使用的OpenCV中的人脸检测方法以及Haar级联分类器，可以对于捕获的目标进行区域划分，以便于进行不同尺度的检测该，同时采用本文所提出基于Mini-Xcetion网络结合注意力机制的模型进一步进行模型训练。

1.1 构建网络模型

近来，注意力机制的提出减少了计算能力和优化算法的限制，使得其在各种图像识别及分类的任务中运用较为广泛。本文将注意力机制融入Mini-Xception网络模型中，在特征的提取部分引入了注意力模块，对于减少无关因素干扰起到了一定作用，适当增加网络中隐藏层数目并在特征加权阶段结合注意力机制，可以提高分类精度，但同时训练模型的时间也随之增加。为了有效解决这一问题，在该模型里使用梯度下降算法（Optimization）中的随机梯度下降优化器（SGD），来减少达到收敛状态所需的时间。构建网络模型的过程如图3所示。首先构建模型，模型分为卷积层、池化层、全连接层和输出层四部分，两个卷积层和两个池化层在模型中交替出现，后将3×3大小的卷积核应用于5×5的输入张量得到特征图，使用预处理后的表情数据进行模型训练以最终得到网络模型，最后经过激活函数处理，可以返回一个多维度特征向量，用以分类多个表情。

图3 构建模型过程

1.2 Haar特征

Haar特征由边缘特征、线性将征、中心特征和对角线特征组合而成，表示了图像的灰度变化情况，图3为特征提取使用的模板情况（图4）。

图4 Haar矩形特征模板

Softmax回归模型相对于Logistic比较类似,是使用Softmax函数进行一个映射，Mini-Xception网络架构[11]通过使用该层进一步对于神经网络中的表情分类进行研究[12]，在Softmax中参数分类的概率为

1.3 级联分类器

在OpenCV中为了得到不错的检测效果，采用若干个基于AdaBost算法实现的强分类器串联起来的方法，构成一个串联的强分类器，在进行人脸检测时，若结果全部分类器均显示该区域有人脸存在，则判定该区域有人脸，否则标记为不存在人脸，基于分类器的检测流程如图5所示。

在训练模型中，被应用的特征会被相应的算法自动找到阈值，同时把人脸分为两面，当出现错误比如分类错误时，算法会自动选择，拿到相对错误率最低的特征，即对脸与非人脸的区别分开，在训练开始时每个图像的权重相同，在经过一次次的分类后，错误分类的权重会一次次增加，然后继续执行，更新权重，直到达到所需的精准度或错误率。

图5 基于级联分类器的人脸检测

1.3.1 批量归一化层

当网络的层级结构较多时，会出现训练收敛速度变慢，Mini-Xception[8]模型在网络的层输入之间加入一个BN归一化层，上层的输入数据在通过归一化处理后送入下层。BN层能够控制每层的数据分布情况，在一定程度上保证了数据的稳定性，能够进一步减少因输入的变化导致的过拟合问题，可表示为

1.3.2 ReLU激活函数

本文应用激活函数可以有效地强化网络模型的表达能力，提高网络的非线性建模能力[9]，对于神经网络分类的精准度也有所帮助。ReLu是非饱和函数，当其输入为正时，输出与输入为线性，不会出现梯度弥散[10]，可以进一步加快收敛速度。

1.4 深度可分离卷积

本文引入的网络模型倘若使用常见的卷积操作，则会大大增加模型的参数量和模型的训练时间，深度可分离卷积是把普通卷积操作[11]改分为一个逐点卷积和一个深度卷积，在Mini-Xception这个轻量级的网络模型中，用来提取特征将会降低参数的数量以及运算成本（图6）。

图6 深度可分离卷积操作

2.1 数据预处理

本次实验采用数据集为FER2013数据集，FER2013数据集与实验数据集不同是非实验环境下获取的，其数据集更大，各方面因素更和自然中人脸表情的变化相同；
在该数据集中以Sad表情为例，FER2013数据集一些样本如图7所示，可见大多数数据都不是完美的表情图像呈现，会有光线，角度以及肢体遮盖等多种因素影响，所以本实验通过图像增强技术以及图像归一化对数据进行预处理。

图7 Fer2013的数据样本示例

2.2 实验设置

为了充分训练模型，实验设置如下：

（1）数据增强，方法如下：①归一化处理。②有效进行裁剪旋转。

（2）参数设置：水平偏转0.3，竖直偏转0.3，图像随机转动为[-10,1,1]，水平翻动0，缩放0.1。

2.3 提出模型实验结果

在实验部分，将提出的结合注意力机制的模型Mini-Xcetion与其他方法在Fer2013数据集上进行比较，平均准确率和Epoch时间的比较结果见表1。

表1 Mini-Xcetion与其他方法在Fer2013公共数据集上的分类精度表现

由表1可以看出，所提方法的平均准确率和Epoch时间达到了95.87%，1.796s,分别比原基本网络分别提高了1.04%, 0.187s,同时在平均准确率与Epoch时间方面也均优于Subnet Ensemble, RestNet-50，以及Inception-V3网络，证明了提出方法的有效性，并在训练完成后得出，七种表情在测试集的准确率依次为66%, 67%, 56%, 92%, 60%, 82%, 73%最终计算得出本文提出的模型在测试集上的平均准确率为70.85%，在实际应用中具有比较准确的效果。

Mini-Xception训练过程平均精度曲线和验证集与训练集平均精度曲线如图8所示。在每次训练时，训练集占表情图像数据集的75%，验证集占表情图像数据集的25%，随着训练的不断运行，尽管其训练曲线不断波动，但训练集和验证集的准确率保持不断提升，直到两条曲线均达到平稳状态。由图8可见，训练和测试过程均较快收敛，说明该方法运行速度较快，计算复杂度小。

图8 训练和验证曲线

本文针对于表情分类识别问题，提出了一种基于Mini-Xception并引入注意力机制的表情图像分类模型。目前越来越多的人对于人脸表情分类的研究进一步加深，受注意力机制的影响，本文对Mini-Xception网络模型的结构进行改进，通过加入注意力机制以及深度可分离卷积，提高了模型的平均准确率同时在Epoch时间方面也有进一步缩短，在Fer2013数据集上进行了实验，证明了提出的网络具有不错的分类性能。本文的实验相对于Subnet Ensemble, RestNet-50, Inception-V3方法而言，训练的网络分类精度更高、且实时性更好。

[1] 邱玉，汪燕芳. 基于表情识别的人机交互系统研究与设计[J]. 计算机光盘软件与应用，2015(2): 76-276．

[2]刘哲良，朱玮，袁梓洋. 结合全卷积网络与Cycle GAN的图像实例风格迁移[J]. 中国图象图形学报，2019, 24(08):1283-1291.

[3]范雪，杨鸿波，李永. 基于深度学习的人脸图像扭正算法[J]. 信息通信，2017, 7(1): 5-9.

[4]钱勇生，邵洁，季欣欣，等. 基于改进卷积神经网络的多视角人脸表情识别[J]. 计算机工程与应用，2018, 54(24): 12-19.

[5] YANG,Y., NEWSAM,S.: Bag-of-visual-words and spatial extensions for land-useclassification[C]. In: Proceedings of Sigspatial International Conference on Advancesin Geographic Information Systems, 2010: 270-279.

[6] G. CHENG, C. YANG, X. YAO, et al. When deep learning meets metric learning: Remote sensing image scene classiﬁcation via learning discriminative CNNs[C]. IEEE Trans. Geosci. Remote Sens., 2018, 56(5): 2811-2821.

[7] E. Li, J. Xia, P. Du, C. Lin, and A. Samat, “Integrating multilayer features of convolutional neural networks for remote sensing scene classiﬁcation,” IEEE Trans. Geosci. Remote Sens., vol. 55, no. 10, pp. 5653–5665, Oct. 2017.

[8] LAZEBNIK,S., SCHMID, C.,PONCE,J. Beyond bags of features: spatial pyramidmatching for recognizing natural scene categories[C]. In: Proceedings of IEEE Con-ference on Computer Vision and Pattern Recognition, 2006, 2: 2169-2178.

[9] CHERIYADAT,A.M. Unsupervised feature learning for aerial scene classification[C]. IEEE Trans. Geosci. Remote Sens., 2014, 52(1): 439-451.

[10] 徐琳琳，张树美，赵俊莉. 基于图像的面部表情识别方法综述[J]. 计算机应用，2017, 37(12): 3509-3516, 3546.

[11]王忠民，李和娜，张荣，等. 融合卷积神经网络与支持向量机的表情识别[J]. 计算机工程与设计，2019, 040(012): 3594-3600.

[12] BLEI, D.M.,NG, A.Y.,JORDAN,M.I. Latent dirichlet allocation[J]. J. Mach.Learn.Res., 2003, 3: 993-1022.

[13] LAZEBNIK,S., SCHMID, C.,PONCE,J. Beyond bags of features: spatial pyramidmatching for recognizing natural scene categories[C]. In: Proceedings of IEEE Con-ference on Computer Vision and Pattern Recognition, 2006, 2: 2169-2178.

[14] CHERIYADAT, A.M. Unsupervised feature learning for aerial scene classification[C]. IEEE Trans. Geosci. Remote Sens., 2014, 52(1): 439-451.

Research on image face recognition method based on deep learning

ZHANG Bao-xin，MENG Fan-xuan，JIN Zhan＊

(College of Communication and Electronical Engineering, Qiqihar University, Heilongjiang Qiqihar 161000, China)

Facial expression recognition using computer is the focus of facial expression recognition. In order to put this direction into production and life more effectively.In this paper, on the basis of deep learning technology based on cascade classifier for face detection and partition the whole positioning, based on the attention mechanism is put forward and used a, the depth of the convolution neural network model of the Mini - Xception as the basic network is a blend of attention mechanism, and convolution model of neural network to construct expression classification through training, Finally, fast and accurate facial expression recognition is achieved. In this paper, a variety of methods are used for experimental comparison, and the final experimental results are analyzed. The results show that, under the same parameter setting, the proposed method can significantly improve the classification performance, recognition accuracy and real-time speed of facial expression change detection.

deep learning；
convolutional neural network；
image classification；
image recognition.

2022-02-24

2021年省级一般大学生创新创业训练计划资助项目（202110232125）；
黑龙江省省属高等学校基本科研业务费科研项目（145109145）；
黑龙江省高等教育教学改革研究项目（SJGY20190718）

张宝薪（2000-），男，哈尔滨人，学士，主要从事图像人脸识别方法应用研究，2649704440@qq.com。

TN919

1007-984X(2022)05-0047-05

猜你喜欢分类器人脸卷积学贯中西（6）:阐述ML分类器的工作流程电子产品世界(2022年4期)2022-04-21基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02有特点的人脸少儿美术·书法版(2021年9期)2021-10-20一起学画人脸小学生必读(低年级版)(2021年5期)2021-08-14基于朴素Bayes组合的简易集成分类器①计算机系统应用(2021年2期)2021-02-23卷积神经网络的分析与设计电子制作(2019年13期)2020-01-14从滤波器理解卷积电子制作(2019年11期)2019-07-04一种自适应子融合集成多分类器方法计算机测量与控制(2019年4期)2019-05-08三国漫——人脸解锁动漫星空(2018年9期)2018-10-26基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20

推荐访问:深度识别图像