人脸识别

人脸识别技术--双层异构深度神经网络

05月05日

分类：人脸识别

基本原理

人类的神经系统在处理信息时是分级的，例如在看一张人脸照片时，首先会从像素中提取人脸的边缘特征，然后将边缘特征组合成部件特征，接下来将部件特征组合成能表达整张人脸的特征，最后基于人脸特征判人脸的属性（例如身份、性别、年龄、种族等）。好的特征能够更好地表达模式（语音、图像等）的属性，因而特征提取是模式识别中最关键的一步。深度神经网络是对人脑神经结构的机器模拟，其思路是由低层特征逐步抽象形成高层特征，从而使特征具有良好的表达能力，能更好地描述模式的本质特性。基于这些优点，深度神经网络已经在语音识别，图像识别等领域取得前所未有的成功。但为了达到较好的性能，深度神经网络通常采用大量数据进行训练（权值学习）。

深度神经网络的主要缺点在于它是一种黑盒方法，其细节隐藏在连接节点（神经元）和节点之间的权值中，而这些权值却是没有明确现实意义的（无法确定哪些权值与哪些属性有关，也就是说这种神经网络是同构的），这就导致了先验信息很难加入到网络的训练过程中。但在实际应用中，如果知道权值与属性之间的对应关系，将会给深度神经网络的应用带来非常大的便利。例如，已有一个用于人脸身份识别的深度神经网络模型和少量具有种族标记的人脸图像数据（假设此种族的数据在之前训练数据中没有出现过），现在想更新网络参数并将此网络用于人脸种族识别。由于深度神经网络通常具有非常多（百万级）的参数，当训练数据量较少时，直接对模型进行更新（所有权值都将被更新）通常会导致过拟合，使网络性能变坏。但如果已知权值与“种族”这一属性的对应关系，那么就可以只对少量的权值进行更新，使模型更加适合于人脸种族识别。基于以上原因，我们提出了异构深度神经网络模型（图1）。

图 1：异构深度神经网络结构

异构深度神经网络不再是一个黑盒，其中的某些权值是与具体的属性相对应的，甚至网络中的每层也可被设定为具有明确的含义，例如其神经元的激活值对应于某种粒度的特征。利用大量具有属性标记的训练数据，采用多任务学习机制并在损失函数中加入稀疏性约束，通过考察神经元对不同刺激的反馈，可建立网络单元与属性的映射关系，实现网络结构的语义化。利用异构深度神经网络，可在人脸模型中方便地加入光照、遮挡、角度、年龄、种族等多种先验信息，增强了模型的适应性和特征的表达能力。

对于跨场景人脸识别问题，例如人证比对，即验证身份证芯片照与现场照的身份是否一致，由于两张照片失配程度较大（非同源、身份证照片分辨率低，两张照片年龄跨度大），会导致特征空间中样本分布的差异性较大，导致比对失败。为了将两张照片映射到同一特征空间中进行比较，在异构深度神经网络基础上，我们提出了双层异构深度神经网络模型。此模型中每层都是一个深度网络（分别以两张照片为输入），在训练时采用二分类损失函数并对两个网络中对应权值的差异性进行正则化，可实现不同图像空间到相同特征空间的映射。在特征空间中，相同身份人脸图像的类内差异变小，而不同身份人脸图像的类间差异变大，从而增强了特征的判别性。