一种结合专家先验知识和运动关联性的人脸运动单元检测算法
集上,编码器,1数据预处理以及AU检测网络设计,1预处理,2AU区域特征提取,3AU关系建模(AUrelationshipmodeling,ARM),4损失函数设计,2实验结果,1数据集,2参数设置,3评
李 奎 ,莫建华 ,王加俊(苏州大学电子信息学院电子信息工程系,江苏 苏州 215006)
引起面部运动的面部肌肉被称为面部运动单元(action unit,AU)[1],AU检测的目的是检测这种运动是否出现。由于个体差异性和AU间复杂的关系,AU检测极具挑战。20世纪70年代,EKMAN等[2]提出了面部运动编码系统(facial action coding system,FACS),其中定义了44种面部AU,并将AU的强度定义为5个等级。FACS的提出为AU检测奠定基础。21世纪初,一些研究人员使用隐马尔可夫模型[3]、贝叶斯网络[4]、受限玻尔兹曼机[5]和Credal网络[6]建模AU关系实现AU检测,这些AU关系建模的缺点是无法影响特征学习和检测过程。近年来,研究人员提出了大量基于深度学习的AU检测方法。一些方法基于AU的区域性展开研究,比如DRML[7]、EAC-Net[8]、JAA-Net[9]、AURCNN[10],另外一些方法利用图卷积神经网络建模AU关系[11-13],但是这些方法忽略了样本的独特性对AU关系的影响。除此之外,研究人员还尝试利用Transformer[14]来探究类别间的关系,该方法采用图片Patch的方式,以及多头自注意力机制,对像素与像素、区域与区域间的关系进行建模[15]。
为了解决以上问题,本研究提出了一种新的AU检测模型,利用先验的AU区域知识划分面部区域,并融入卷积网络,随后通过Transformer结构中的编码器对AU关系进行样本独特性建模,最终利用全连接层实现AU分类。在BP4D和DISFA数据集上的测试结果显示,本文提出的模型具有良好的AU检测性能。
1 数据预处理以及AU检测网络设计
1.1 预处理
对人脸图像进行预处理能有效减少与人脸特征无关的噪声信息对AU检测的影响。人脸图像的预处理的步骤如图1所示。预处理包括人脸关键点检测、人脸对齐、人脸裁剪、人脸区域划分、数据标准化等步骤。首先,使用MediaPipe工具包[16]对数据集中所有图片进行关键点检测;其次,利用仿射变换对每一段视频数据中所有帧的人脸进行对齐操作,以消除由于缩放和旋转造成的影响;接着,对人脸区域进行裁剪,使得裁剪后的图片大小为224×224个像素,人脸双瞳中心的距离为90个像素;然后,结合FACS对AU的解剖学描述,在分析脸部肌肉运动的基础上,参考MA等[10]提出的方法,利用面部关键点将人脸划分出8个区域,各个区域包含的AU类别如表1所示;最后 ......
您现在查看是摘要页,全文长 11905 字符。