基于人脸特征相似度分数似然比的人脸比对方法
黎智辉1, 谢兰迟1,*, 王桂强1, 王海欧2, 牛勇2, 许磊1, 晏于文1, 李志刚1, 许小京1, 黄威1, 张宁1, 郭晶晶1, 侯欣雨1
1.公安部物证鉴定中心,现场物证溯源技术国家工程实验室,北京 100038
2. 公安部刑事侦查局,北京100741
* 通讯作者:谢兰迟(1989—),女,内蒙古通辽人,硕士,助理研究员,研究方向为影像技术。E-mail: xielanchi@139.com

第一作者简介:黎智辉(1976—),男,湖北石首人,博士,研究员,研究方向为影像技术。E-mail: lzhuil@sina.com

摘要

在法庭科学中,特征比对是进行物证检验的核心方法之一,应用于几乎所有专业。基于统计框架的特征比对客观方法,是当前法庭科学发展的方向。本文就影像专业的人脸特征比对方法展开研究。通过深入分析当前基于深度学习的人脸特征进行比对的特点,开展了大规模数据的特征比对实验,统计了深度学习特征比对分数的分布,结合贝叶斯统计框架下基于分数似然比的模型,提出基于深度学习特征相似度分数似然比的人脸比对方法。我们的实验结果和分析,支撑了人脸特征比对客观方法的实际应用,也丰富了基于统计的法庭科学特征比对方法。

关键词: 法庭科学; 特征比对方法; 深度学习特征; 人脸比对; 贝叶斯框架; 分数似然比
中图分类号:DF793.2 文献标志码:A 文章编号:1008-3650(2019)01-0001-08
Facial Comparison Based on Likelihood Ratio of Similarity Score Obtained from Deep-learning into Features
LI Zhihui1, XIE Lanchi1,*, WANG Guiqiang1, WANG Haiou2, NIU Yong2, XU Lei1, YAN Yuwen1, LI Zhigang1, XU Xiaojing1, HUANG Wei1, ZHANG Ning1, GUO Jingjing1, HOU Xinyu1
1.Institute of Forensic Science, Ministry of Public Security, National Engineering Laboratory for Forensic Science, Beijing 100038, China
2. Crime Investigation Bureau, Ministry of Public Security, Beijing 100741, China
Abstract

Feature-comparison is one of the core methods among forensic evidence test, almost being applied by every professional subject. The feature-comparison method, based on the statistical framework, is objective, thus becoming the on-going direction of forensic science. Facial feature comparison is explored in this paper. Through in-depth characteristic analysis of the current deep learning with face features, the facial feature comparison is carried out into relevant large-scale data, thereby having obtained the statistical distributions of facial feature comparison score by deep-learning. Accordingly, the facial comparison approach is proposed at the basis of features’ deep-learning coupled into the model of score-based likelihood ratio under Bayesian framework. The experimental results are supportive for the facial feature comparison to apply, demonstrating one more enrichment of the methods about forensic feature comparison based on statistics.

Key words: forensic science; feature-comparison method; deep-learning; facial comparison; Bayes framework; score-based likelihood ratio

特征比对方法是各个科学领域研究的重要方法, 更是法庭科学的核心方法, 其有效性及可靠性问题极大影响法庭证据的应用, 国际上非常重视特征比对方法。美国总统科技顾问委员会(PCAST)专门就法庭科学特征比对方法发布报告[1], 英国法庭科学监管机构(FSR)对图像比对和解译证据发布专门的文件[2], 对特征比对方法进行评估和规范。特征比对方法可分为客观方法和主观方法[1]:客观比较方法重视程序的标准化和可量化的细节, 很少或根本没有人工干预; 主观方法则是由人工参与判断关键过程。目前法庭科学中大部分物证特征比对方法属于主观方法, 在客观方法方面, 近年来有指纹、笔迹、语音、玻璃、DNA比对, 统计概率证据解释[3, 4, 5, 6, 7, 8, 9, 10]等研究。许多学者认为客观方法是法庭科学的发展趋势[11, 12, 13]。目前法庭科学中比较成熟且广泛接受的客观方法包括了DNA单来源及简单混合样本所采用的基于特征频率统计(频率调查)的方法[1, 8, 9]

在人脸特征比对客观方法方面, Gonzalez-Rodriguez等[14]探讨了贝叶斯方法在指纹、人脸和签名证据中的应用, 利用早期的人脸识别系统进行人像特征比对, 使用了基于分数的似然比计算方法[15], Allen[16]对人脸鉴定中的贝叶斯理论应用进行分析。Ali等[17]人讨论了在嫌疑锚定(suspect-anchored)和嫌疑独立(suspect independent)两种数据库中, 人脸识别系统分数似然比的差别。Mery等[18]讨论了不同人脸识别系统计算似然比的可复现性和重复性。这些研究结果支持了人脸特征比对客观方法的可行性, 但也存在局限:一是实验数据量有限, 二是受当时的条件所限, 并未使用基于深度学习提取特征的人脸识别系统。因此, 人脸特征比对的客观方法, 并未受到过多的重视, 也未得到有效的应用。针对这些问题, 本文就人脸特征比对客观方法进行深入的研究探讨。

1 实验方法
1.1 似然比方法

人脸特征比对客观方法主要基于贝叶斯统计模型, 通过引入似然比计算来进行。分别用P(H)、P(E)表示事件H、E发生的概率, P(H|E)表示事件E发生的条件下事件H发生的概率, P(E|H) 表示事件H发生的条件下事件E发生的概率。根据贝叶斯定理有:

如果将事件Hp表示为检材和样本同源的概率, 事件Hd表示为检材和样本不是同源的概率, 事件E表示为证据。分别在公式(1)中将H替换为Hp和Hd, 得到结果后相除, 有:

公式(2)的左边P(Hp|E)/P(Hd|E)表示存在证据E的条件下检材与样本同源的概率与非同源概率之比, 通常称为后验比。右边是两项的乘积。第一项P(E|Hp)/P(E|Hd)表示检材和样本同源条件下发现证据的概率与检材和样本非同源的条件下发现证据的概率之比, 通常称为似然比。第二项P(Hp)/P(Hd)是表示检材和样本同源的概率与检材和样本非同源的概率之比, 通常称为先验比。则公式可以简化为:后验比=似然比× 先验比。这一基本框架表示了先验比、似然比与后验比之间的关系。先验比是在证据出现之前对事件Hp和Hd的认识; 后验比是在证据出现之后对事件Hp和Hd的认识; 事件出现前后对事件Hp和Hd的认识上的变化, 依靠似然比来支撑。针对一个检验过程, 主要工作是确定似然比。因为对于检验方来说, 先验比与后验比都未知, 似然比则可以通过对检材和样本特征的统计得到。

1.2 人脸比对的似然比方法

人脸特征比对采用似然比框架, 图1显示了人脸比对似然比方法的基本流程。

图 1 人脸比对似然比方法的基本流程Fig.1 The basic procedure of face comparison based on likelihood ratio

在人像比对检验中, 检验的对象是嫌疑人的人脸图像(已知对象, 样本X)和作案人的人脸图像(未知对象, 检材Y)。人脸比对系统提取人脸图像的一组特征, 特征通常为一组高维向量, 对于可获取的作案人和嫌疑人的人脸图像分别进行特征提取, 可将分别提取到的特征作为对X和Y的一种生物计量值, 分别表示为x和y。由于客观方法提取的人脸图像特征是连续的检验值[5], 似然比可以定义为:

式中: f表示特征向量x和y的概率密度分布, I表示背景信息。对于高维特征, 进行量化的频率分布统计, 式(3)中的分母和分子通常难以计算。即使在x和y的分布已知的假设上, 还需要解决:1)如何单独的概率描述每个特征; 2)如何获得特征之间的概率依赖关系。

目前在人脸比对中, 主流的方法都开始改变直接对特征分布进行统计的思路, 采取对人脸特征比对的某种函数进行分析, 将多个特征值转化为一个特定的函数值, 称之为基于分数的似然比方法。这种分析方法较早在语音[15]中使用, 也在其他的物证中广泛采用, 如书写材料[19]、指纹和签名[14]等。这种替代办法是计算人脸高维特征之间的相似度, 再对相似度分布计算似然比。通常, 人脸比对系统会通过距离计算、映射等方式生成一个单变量的相似度分值S(x, y), 分值的可靠性被越来越多的研究证明。基于相似度分值的似然比可以表示为:

式中:g表示相似度分值S(x, y)的概率密度分布, I表示背景信息。基于分数的似然比计算的基本结构如下:

图 2 基于人脸图像相似度分值的似然比方法的基本流程Fig.2 The basic procedure of score-based likelihood ratio method for facial image comparison

1.3 基于深度学习的人脸特征

尽管人脸特征为人们所熟知, 但对人脸特征的提取和度量却一直是较为困难的问题[20]。近年来基于深度学习的人脸特征为人脸比对方法提供了一条新的途径。基于深度学习的人脸特征本质上是将人脸图像进行量化为一个向量。向量中的每一个标量是一个实数值, 理论上来说, 向量长度越长, 代表特征越多。关键在于得到特征提取的方法, 或者称为特征提取模型, 这个模型有一组复杂的参数, 能够对每一张人脸图像提取到有区别意义的特征。特征提取模型是通过一个学习(或训练)过程得到。在这个学习过程中, 通过调整模型参数, 使得提取到的特征与希望达到的特征目标最接近, 然后将最优的参数固定下来。这里所说的特征目标, 是指同一人的不同人脸照片提取到的特征尽可能接近, 不同人的照片提取到的特征尽可能距离较远。上述过程也是典型的模式识别[21]的过程。近年来的研究工作证明, 基于卷积神经网络的优化过程是上述学习过程中较成功的模式[22, 23, 24]。当然, 基于深度学习的特征是人脸图像结构特征, 与我们常说的五官特征并不相同, 没有明显的直观视觉意义。通过特征提取模型提取得到检材和样本的特征向量以后, 需要对其进行比对, 一般的方法包括计算两个特征向量之间的距离, 如欧氏距离、夹角余弦等方法, 可以得到一个分数(相似度), 代表特征的相似程度。

1.4 实验数据与系统

人脸特征比对系统的典型应用场景是, 在案件现场监控录像截取的人脸图像与嫌疑人的证件照片进行比对检验。按照应用场景需求, 分别参考文献[25, 26]中关于人脸图像质量的要求, 确定实验监控截图和证件照片的质量要求, 见表1

表 1 实验中采用的人脸图像的质量要求 Table 1 Quality requirements of face images in experiment

收集实验数据形成实验数据集, 数据集包含10万人的监控截图(如图3a)和证件照片(如图3b)。

图 3 实验中采用的人脸图像样例Fig.3 Exampled face images collected for experiment

所有数据文件名经过随机排序、加密处理, 按照监控截图和证件照片两个子数据集存储。为广泛比较不同人脸比对算法的相似度分布情况, 本文采用了国内14个基于深度学习特征人脸比对算法进行实验, 分别是:东方网力、多维视通、大华、格灵深瞳、海康、旷视、商汤、深醒、图铭、眼控、依图、云丛、云天励飞、中聪(拼音首字母顺序)。使用了上述算法进行深度学习特征提取, 然后进行比对以生成相似度分数, 并在matlab平台进行统计分析, 计算似然比。(经前期协商, 公开的实验结果不体现排名, 因此后续算法编号顺序与上述顺序不同)。

2 结果
2.1 相似度分布

测试数据库包含100 000个对象, 用X_i和Y_i分别表示对象i(i∈ [1, 2, …100000])的标准证件照片和近似正面监控截图。提取Xi和Yi的人脸特征向量, 分别记为xi和yi。进行L2范数归一化, 分别得到xi'和yi'。对所有实验数据重复上述计算, 得到归一化的人像特征数据。

在20万条特征数据的基础上进行同一来源(Hp假设)的人像相似度分布统计, Hp假设下相似度分布的计算:1) 计算同一对象证件照片和监控截图归一化人像特征(xi'和yi')间的余弦距离; 2) 进行相似性度量得到相似度分值S(xi', yi'), 相似度取值范围为0~100; 3) 得到相同人证件照片和监控截图比对相似度分值的分布(含Ng=105条数据)。

进行不同来源(Hd假设)的人像相似度分布统计, 假设下相似度分布的计算:1)计算不同对象正面照片和监控截图归一化人像特征(xi'和yj', i≠ j)间的余弦距离; 2)进行相似性度量得到相似度分值S(xi', yj') (i≠ j), 相似度取值范围为0~100; 3)得到不同人证件照片和监控截图比对相似度分值的分布(含Ni=9.9999× 109条数据)。

一个理想的具有人脸鉴别能力的算法, 相似度分值的分布应满足以下原则:1)同一人的人脸图像间的相似度分值接近于100; 2)不同人的人脸图像间的相似度分值尽可能的小。由于不同系统返回相似度分值的精确度不一致(10-2~10-8), 统计时, 我们将相似度分值统一取整离散化。同时, 由于来源同一人的样本对数量Ng远小于来源不同人的样本对数量Ni, 计算同一人和不同人人脸图像相似度分布概率的方法为:

式中:Mg (δ )表示同源的人脸图像比中出现相似度为δ 的比对次数; Mi (δ )表示非同源的人脸图像比中出现相似度为δ 的比对次数; δ 的取值范围为0到100的整数。

14个不同人脸比对算法得到的相似度分布如图4所示。图中分布显示, 系统之间相似度的分布差异很大, 直接进行证据的转换很可能会因系统厂家、模型版本、对象差异等产生理解上巨大偏差。从同一人的相似度值与不同人的相似度值差异尽可能大的指标上看, 算法5、算法7、算法8、算法9、算法10、算法12、算法14, 同一人和不同人的人脸图像相似度值较为接近, 当测试数据集数量加大后, 相似的不同人的概率更高, 分布混叠的危险也就更大。按照相似度分布的原则, 同一人相似度应集中在接近100的区间分布, 从此标准上来说算法1、算法2、算法3、算法11中模型训练更贴近于1对1的人脸图像比对的需求。

图4中还可以看到, 由于不同人的相似度数据量(9.9999× 109)较大, 不同人的相似度分布曲线较为流畅, 相似度的取样间隔适中, 实验的可重复性较好, 能够基本反映实验数据要求下不同人人脸图像相似度分布的统计特性。而相同人的相似度数据量(105)较小, 算法4、算法5、算法9、算法13的结果中数据噪声较为明显。很多文献在计算相似度分布时, 由于实验样本数量的限制, 假设服从正态分布, 但根据本实验中测试数据在显著性水平为0.05时, 对所有14个算法的同一人相似度分布和不同人相似度分布进行单样本正态分布Lilliefors检验, 结果见表2, H为接受或拒绝正态分布假设(1为拒绝, 0为接受), P为接受假设的概率值(小概率时对原假设提出质疑), LSTAT为测试统计量的值, CV为是否拒绝原假设的临界值。实验结果显示:对所有的算法源于同一人图像和源于不同人图像两个测试中, 正态分布拟合优度测试统计量(LSTAT)均大于临界值, 因而拒绝正态分布假设。表3给出实验结果中同一人和不同人人脸图像的相似度的最小值(Min)、最大值(Max)、平均值(Mean)、标准差数据(Std)。由于不能使用正态分布的假设, 这里不再给出参考阈值和置信区间, 以免误导读者对于相似度数据的
判断。

图 4 同一人和不同人人脸图像相似度在实验数据集上的分布Fig.4 Similarity-score distributions between the genuine and impostor facial images in the experimental dataset

表2 同一人和不同人人脸图像相似度的正态分布拟合优度检验 Table 2 Fitness test on normal distribution of similarity scores from the genuine and impostor facial images
表 3 同一人和不同人人脸图像相似度的数据统计 Table 3 Statistical data of similarity scores from the genuine and impostor facial images
2.2 似然比统计

基于人脸图像相似度的似然比计算中式(4)可近似计算为:

式中, 在Ng和Ni足够大时, 约等式左右近似相等。即在似然比中事件E被定义为比对的监控截图和证件照片的相似度为δ 。计算时, 由于SLR取值范围过大, 一般采用对数表示为:

根据同一人和不同人人脸图像相似度分布, 按照式(7)和式(8)计算14个人脸比对算法在实验数据集上SLLR的值。实验结果和拟合曲线如图5所示。

图 5 基于相似度的对数似然比计算结果Fig.5 Computational results from the logarithmic likelihood ratio based on similarity

由于样本数量的限制, 同一人的相似度分布在现有离散化采样精度下存在噪声, SLLR的测试值并未达到理想的正斜率结果。对于测试的14个人脸比对算法, 最大SLLR值均在8~9之间。

3 讨论

根据上述实验结果, 尤其是似然比的分布, 结果可用于衡量近似正面监控截图和证件照片比对相似度结果的证据价值。以算法1为例, 观察图4结果, 在相似度分值40至80的区间内, 正负样本分布都很少, 依据经验进行估计证据价值是比较难的。但不同案件的案情不同, 即先验概率不同。如嫌疑人是出现在现场的100个人之一(同源的先验概率为0.01, 先验概率比为0.01/(1-0.01)≈ 1.01%), 如嫌疑人的证件照片和现场监控截图的相似度为70, 根据计算SLLR为3.69, 则可估算后验概率比约为1.01%× 103.69=49.46, 同源的后验概率为49.46/(49.46+1)=98.02%。简单的从这个例子来看, 有了似然比的证据之后, 嫌疑人与现场监控照片同源的概率从0.99%上升到了98.02%。因此, 似然比为衡量证据的证明力提供了更量化的参考。这种参考在今后的法庭审判中将会是一个方向。

本文探讨了人脸比对的客观方法。通过引入基于深度学习人脸特征, 在贝叶斯估计框架下应用基于分数的似然比模式, 进行大规模的数据实验, 取得了有一定代表意义的相似度分数的分布数据, 为比对方法提供了数据支撑。基于相似度的分布, 我们可以在人像特征比对检验过程中利用现在先进的人工智能比对方法得到相似度似然比。尽管深度学习在人脸识别中已经广泛应用, 但用于法庭科学鉴定目的的人脸图像特征比对, 本文的工作还是第一次尝试。对于整个法庭科学特征检验方法而言, 本文也是首次大规模尝试基于深度学习的特征, 对于探讨基于统计框架的客观比对方法, 也提供了参考。

特别需要指出的是, 对于相似度分布的估计是一项十分困难的任务, 但本文使用的数据已经超过了其他文献的几个量级, 加上基于深度学习的特征用于表征人脸比其它文献报道的更准确, 因此本文在此基础上得到的似然比结果更具参考意义, 也能有效地支持实际检验应用工作。当然, 还有更多进一步的研究工作需要进行, 最主要的包括:对基于分数的似然比的理论进行更深入的分析, 比较传统特征和深度学习特征在此模式下的区别与联系; 相似度分布数据的进一步细化; 对具体案件应用似然比时需要注意的问题。

参考文献
[1] PCAST. Report on forensic science in criminal courts: ensuring scientific validity of feature-comparison methods[R/OL]. (2016-09-20)[2018-10-12]. https://obamawhitehouse.archives.gov/sites/default/files/microsites/ostp/PCAST/pcast_forensic_science_report_final.pdf [本文引用:3]
[2] FSR. Forensic image comparison and interpretation evidence: guidance for prosecutors and investigators, issue 2[R]. Birmingham: Forensic Science Regulator, 2016. [本文引用:1]
[3] NEUMANN C, EVETT I W, SKERRETT J E, et al. Quantifying the weight of evidence from a forensic fingerprint comparison: a new paradigm[J]. Journal of The Royal Statistical Society Series A-statistics in Society, 2012, 175(2): 371-415. [本文引用:1]
[4] CHAMPOD C, EVETT I W. A probabilistic approach to finger- print evidence[J]. Journal of Forensic Identification, 2001, 51(2): 101-122. [本文引用:1]
[5] HEPLER A, SAUNDERS C P, DAVIS L J, et al. Score-based likelihood ratios for hand writing evidence[J]. Forensic Science International, 2012, 219(1): 129-140. [本文引用:2]
[6] MEUWLY D, DRYGAJLO A. Forensic speaker recognition based on a Bayesian framework and Gaussian mixture modeling[J]. Forensic Science International. 2003, 136(Suppl. 1) : 364. [本文引用:1]
[7] WALSH K, BUCKLETON J S, TRIGGS C M. A practical example of glass interpretation[J]. Science & Justice , 1996, 36(4): 213-218. [本文引用:1]
[8] NATIONAL RESEARCH COUNCIL. Reference manual on scientific evidence[M]. 3rd ed. Washington, DC: The National Academies Press, 2011 [本文引用:2]
[9] BUCKLETON J S, TRIGGS C M, WALSH S J. Forensic DNA evidence interpretation[M]. Florida: CRC Press, 2005. [本文引用:2]
[10] AITKEN C, ROBERTS P, JACKSON G. Fundamentals of probability and statistical evidence in criminal proceedings, Guidance for Judges, Lawyers, Forensic Scientists and Expert Witnesses[M]. Royal Statistical Society, 2010. [本文引用:1]
[11] 张翠玲, 谭铁君. 基于贝叶斯统计推理的法庭证据评价[J]. 刑事技术, 2018, 43(4): 265-271. [本文引用:1]
[12] MEUWLY D, RAMOS D, HARAKSIM R, et al. A guideline for the validation of likelihood ratio methods used for forensic evidence evaluation[J]. Forensic Science International, 2017, 276(7): 142-153. [本文引用:1]
[13] ENFSI. ENFSI guideline for evaluative reporting in forensic science: strengthening the Evaluation of Forensic Results across Europe (STEOFRAE)[M]. Wiesbaden, Ger: European Network of Forensic Science Institutes, 2015 [本文引用:1]
[14] GONZALEZ-RODRIGUEZ J, FIERREZ-AGUILAR J, RAMOS-CASTRO D, et al. Bayesian analysis of fingerprint, face and signature evidences with automatic biometric systems[J]. Forensic Science International, 2005, 155(2-3): 126-140. [本文引用:2]
[15] MEUWLY D, GOODE A, DRYGAJLO A, et al. Forensic speaker recognition based on a Bayesian framework and Gaussian mixture modeling[J]. Forensic Science International, 2003, 136(Suppl. 1) : 364. [本文引用:2]
[16] ALLEN R. Exact solutions to Bayesian and maximum likelihood problems in facial identification when population and error distributions are known[J]. Forensic Science International, 2008, 179(2): 211-218. [本文引用:1]
[17] ALI T, SPREEUWERS L, VELDHUIS R, et al. Effect of calibration data on forensic likelihood ratio from a face recognition system[C]//. IEEE. IEEE Sixth International Conference. Institute of Electrical and Electronics Engineers, 2013: 1-8. [本文引用:1]
[18] MERY D, ZHAO Y N, BOWYER K. On the Reproducibility and Repeatability of Likelihood Ratio in Forensics: A case study using Face Biometrics[C]// IEEE . The IEEE Eighth International Conference on Biometrics: Theory, Applications, and Systems (BTAS 2016). Institute of Electrical and Electronics Engineers, 2016. [本文引用:1]
[19] DAVIS L J, SAUNDERS C P, HEPLER A, et al. Using subsampling to estimate the strength of hand writing evidence via score-based likelihood ratios[J]. Forensic Science International, 2012, 216(1): 146-157. [本文引用:1]
[20] KLEINBERG K F, VANEZIS, VANEZIS P. BURTON A M. Failure of anthropometry as a facial identification technique using high-quality photographs[J]. Journal of Forensic Sciences 2007, 52(4): 779-783. [本文引用:1]
[21] 杜达, 哈特, 斯多克. 模式分类[M]. 李宏东, 姚天翔, 译. 北京: 机械工业出版社, 2003. [本文引用:1]
[22] SUN Y, WANG X, TANG X, et al. Deep Learning Face Representation from Predicting 10000 Classes[C]//. IEEE. 2014 IEEE Conference on computer vision and pattern recognition. Institute of Electrical and Electronics Engineers, 2014: 1891-1898. [本文引用:1]
[23] SUN Y, WANG X, TANG X, et al. Deep Convolutional Network Cascade for Facial Point Detection[C]//. IEEE. 2013 IEEE Conference on computer vision and pattern recognition. Institute of Electrical and Electronics Engineers, 2013: 3476-3483. [本文引用:1]
[24] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. arXiv: Neural and Evolutionary Computing, 2012. [本文引用:1]
[25] 中华人民共和国公安部. 安防人脸识别应用系统第2部分人脸图像数据: GA/T 922. 2-2011[S]. 北京: 中国标准出版社, 2011. [本文引用:1]
[26] 中华人民共和国公安部. 居民身份证制证用数字相片技术标准: GA461-2004[S]. 北京: 中国标准出版社, 2004. [本文引用:1]