第一作者简介:吴浩,男,江苏徐州人,硕士,助理研究员,研究方向为计算机应用及指纹检验技术。E-mail: wuhao@cifs.gov.cn
我国公安刑侦部门自上世纪90年代开始建设应用指纹自动识别系统,利用指纹自动识别系统开展犯罪现场指纹查询、深挖犯罪嫌疑人余罪等工作,取得了显著的破案成效,指纹自动识别系统已经逐渐成为各级公安刑侦部门侦查破案的重要工具之一。随着人工智能等计算机应用技术的迅速发展,指纹自动识别系统比对算法关键性能也得到了极大提升,针对性的评测工作亦变得日趋重要和不可或缺。本文结合公安刑侦工作实际,探索研究刑侦指纹自动识别系统性能评测体系,介绍了刑侦指纹自动识别系统评测内容和关键指标,并详细阐述了评测方法和工作程序。
Since 1990s, the automatic fingerprint identification system (AFIS) has been built up in China’s criminal investigation departments of public security, aiming to inquiring/matching latent fingerprint and digging out the possibly hidden crimes of a suspect, therewith having played big roles in relevant cases’ detection. Presently, AFIS is one of the important tools for criminal investigation nationwide. In pursuit to the rapid development of artificial intelligence and other computer application technologies, AFIS has further been greatly improving into the key performance of comparison algorithm, thereby bringing forth the involving evaluative indicators becoming ever-increasingly important and indispensable. In this paper, combined with the actual status of criminal investigation, the evaluation setup was deliberately explored about AFIS performance in criminal investigation, with explanation being made on the evaluation items and key indicators, accordingly having paid elaboration into the evaluation essentials and operating procedures.
多年来, 我国公安刑侦指纹自动识别系统(Automatic Fingerprint Identification System, 以下简称:AFIS系统)的建设应用模式总体上是以省级为单位组织开展, 各地根据实际情况自主立项、自主选型、自主建设, 多数省份采用“ 两级建库、三级比对、多级应用” 的模式开展建设应用。目前, 全国公安机关分别使用着北京刑科所、海鑫科金(北大高科)、东方金指、汉林信通(方正国际)、众城(NEC)、法国Morpho等6家不同厂商或研制单位的AFIS系统。
随着近年来计算机应用技术的迅猛发展, 又涌现出了基于深度学习的无特征指纹比对算法, 同时各家AFIS系统比对算法也在不断更新升级, 但各算法性能表现不一, 互相之间既各有优势, 又彼此存在互补性。因此, 建设应用单位如要选择适合本地的AFIS系统首先需要进行科学、权威、公正的性能评测。但是, 由于缺乏统一的针对刑侦AFIS系统的性能评测体系, 导致各地公安机关在开展系统建设选型的实际操作过程中存在很大困难。本文首先介绍了国内外AFIS系统性能评测现状, 然后重点结合近年来公安部和北京、广东、新疆等地组织开展的AFIS系统性能评测情况, 提出了针对刑侦AFIS系统的性能评测体系, 包括评测内容和关键指标, 以及评测方法和工作程序等。
随着指纹识别技术及产业的发展, 新的算法、新的产品层出不穷。为了评估各种算法以及各厂商产品的性能, 需要开展相应的评测工作。
在国际上, 美国国家标准化技术研究所(National Institute of Standards and Technology, NIST)组织开展了多项与指纹识别技术相关的评测[1], 包括四联指分割评测(slap fingerprint segmentation evaluation, SlapSeg)、NFIQ兼容性测试(NFIQ compliance testing)、WSQ指纹图像压缩/复现兼容性测试(WSQ compliance guidelines)等专项技术评测, 以及1‥1单/双指验证评测(proprietary fingerprint template evaluation, PFT)、仅使用细节点特征的1‥1验证评测(minutiae interoperability exchange, MINEX)、现场指纹技术评测(evaluation of latent fingerprint technologies, ELFT)、指纹识别厂商技术评测(fingerprint vender technology evaluation, FpVTE)等比对性能技术评测。上述评测一般都是由NIST提供测试相关数据、硬件设备和软件开发工具包(software development kit, SDK)规范, 参测厂商提供符合规范的SDK即可。此外, 在学术界, 意大利博洛尼亚大学生物特征系统实验室与美国密歇根州大学模式识别与图像处理实验室等学术研究机构组织开展了指纹识别算法竞赛(fingerprint verification competition, FVC)。该赛事旨在评估指纹验证算法的性能, 为后续研究指明方向。
在NIST组织开展的比对性能技术评测中, PFT和MINEX仅关注1∶ 1指纹比对, 而FpVTE则关注1∶ N指纹比对。由于1∶ N指纹比对在公安、司法、海关等执法部门中有着广泛的应用, 因此, FpVTE受到了更多的关注。FpVTE分别于2003年和2012年举办过2次。FpVTE 2003[2, 3]是为了完成《美国爱国者法案》(USA PATRIOT Act, 2001年10月26日由布什颁布的国会法案, 以防止恐怖主义为目的)的任务而进行的, 除了测试各厂商的指纹识别算法的性能外, 还测试了FBI的指纹识别系统(IAFIS)和美国外国人入境身份认证系统(US-VISIT IDENT system), 以证明生物特征识别技术可以被用于美国旅客暨移民身份显示技术项目。此次评测由参测厂商自备硬件, 在NIST位于马里兰州的办公地进行搭建测试。测试底库规模为10万级, 数据来源于美国联邦和州政府的多个指纹数据库。重点评测各算法捺印比捺印(包括平面、滚动、联指等)在误识率(false accept rate, FAR)一定的情况下比中率(true accept rate, TAR)的表现。同时, 还关注了图像质量、图像数据类型和来源等因素对比对精度的影响。FpVTE 2012[4]是FpVTE 2003的延续, 测试底库规模最高达到了500万级。为了保证公平性, 评测所需硬件统一由NIST提供。同时, 允许多次提交SDK, 以方便参测厂商对其算法不断改进。FpVTE 2012除了重点关注比对精度(FNIR@FPIR=10-3, 误识率控制在1‰ 以内的漏比率情况)之外, 还从入库率、平均建库时间、平均检索时间、检索任务占用空间、比中排位等方面进行了评测。
在国内, 公安部第一研究所曾组织开展了两次针对1∶ 1指纹比对的评测工作。一次是2001年组织的指纹识别算法性能评测工作, 国内外共有22家公司的23个算法参加了此次评测[5], 另外一次是2005年公安部出入境管理局委托其组织开展的边防检查指纹算法和指纹采集器招标选型技术测试工作[6]。近年来, 随着信息技术的发展和公安刑侦AFIS系统的深入应用, 各地开展AFIS系统性能评测的需求日益增多。北京、广东、新疆等地结合本地AFIS系统建设项目, 以委托公安部物证鉴定中心、航天二院207所等第三方单位或自行组织等形式开展了更贴近刑侦工作实际的针对1∶ N指纹比对的评测工作。公安部基于为全国刑侦指纹大库建设选型积累参考数据考虑, 委托公安部物证鉴定中心于2015年至2017年组织多家AFIS系统厂商开展了为期3年的实战化评测工作。
AFIS系统性能评测的目的是比较指纹比对核心算法的性能, 即所有算法基于相同的底库数据对相同的测试样本进行查询。一般情况下, 测试样本是离线收集的, 测试结果是可以重现的。与FpVTE只关注捺印比捺印(TT, 查重)不同, 在刑侦实际工作中还关注现场比捺印(LT, 正查)和捺印比现场(TL, 倒查)。因此, 刑侦AFIS系统性能评测应至少包括指纹正查、指纹倒查和指纹查重3项内容。评测过程中, 指纹正查、指纹倒查每条评测任务分别返回前50名候选队列, 指纹查重评测任务只返回比中结果(即队列不定长)。具体评测指标和评测方法如下。
由于评测底库的数据一般都是来源于各地实际指纹库, 一人多卡(重卡)的情况无法避免, 即存在一个评测任务存在多个目标答案的情况。因此, 定义:对于每条正查评测任务, 现场指纹对应的比中捺印指纹及其重卡捺印指纹为该任务的正确结果集合。正确结果集合基数即为该任务的正确结果总数。
2.1.1 比中率
对于每条正查评测任务, 正确结果集合中的任意一份捺印指纹出现在反馈结果的前50名之内(含第50名)且指位正确即算该任务比中。比中率=比中任务数量/任务总数。
2.1.2 排前率
对于比中的正查评测任务, 以最靠前的正确结果排名作为比中排位。在实际工作中, 比中排位越靠前, 越能节省指纹检视技术人员的工作量, 比中结果越不容易被漏检, 因此, 不同的比中排位应赋予不同的权值, 且权值应按照一定的减分系数依序递减。表1给出了建议的比中排位权值表(同时适用于正查和倒查)。排前率=所有比中正查评测任务比中排位的加权平均值/100。
2.1.3 时间资源消耗
时间资源消耗=所有正查评测任务的平均比对用时× 消耗资源数。
消耗资源数测算方式:如果各参测系统使用的硬件设备的型号、配置等完全相同, 直接以占用设备数量计算即可; 否则, 将固定值的CPU和内存定义为一个硬件资源单元, 然后根据参测系统的实际资源占用情况, 将其换算成消耗资源数。下同。
2.1.4 平均漏比率
对于每条正查评测任务, 漏比率=未出现在反馈结果前50名之内(含第50名)的正确结果数量/该任务正确结果总数。平均漏比率为所有正查测试任务漏比率的平均值。
定义:测试样本比中的所有现场指纹为正确结果全集。正确结果全集基数即为测试样本比中的所有现场指纹的总数。
2.2.1 比中率
比中率=所有倒查评测任务前50名之内(含第50名)反馈的正确结果数量/正确结果全集基数。
2.2.2 排前率
排前率=所有比中现场指纹排位的加权平均值/100。
2.2.3 时间资源消耗
时间资源消耗=所有倒查评测任务的平均比对用时× 消耗资源数。
定义:针对每条查重评测任务, 对应比中的捺印指纹及其重卡为该任务的正确结果集合。正确结果集合基数即为该任务的正确结果总数。
2.3.1 比中率
对于每条查重评测任务, 正确结果集合中的任意一份捺印指纹出现在返回队列中即算该任务比中。比中率=比中任务数量/任务总数。
2.3.2 误识数
对于每条查重评测任务, 返回队列中存在错误结果即算该任务误识。
2.3.3 时间资源消耗
时间资源消耗=所有查重评测任务的平均比对用时× 消耗资源数。
2.3.4 平均漏比率
针对每条查重评测任务, 漏比率=未反馈正确结果数量/该任务的正确结果总数。平均漏比率为所有查重测试任务漏比率的平均值。
根据指纹正查、指纹倒查、指纹查重在实际工作中发挥作用的大小, 建议在综合评价时, 指纹正查、指纹倒查、指纹查重的权重比为5∶ 2∶ 3。
指纹正查、指纹倒查、指纹查重总分均设定为100分(扣分项另计), 结合各分项指标的重要程度, 建议的量化评价标准见表2。量化评价时, 需对多家算法进行横向比较。
刑侦AFIS系统性能评测组织工作应至少包括以下10个程序环节。
评测组织方式包括委托第三方和自行组织两种。为保证评测工作的权威性, 常规做法是委托具有资质的第三方机构组织开展评测具体工作。由于委托方一般都是AFIS系统建设项目的甲方单位, 而参测厂商则是潜在投标人, 采用委托第三方组织的方式, 可以避免甲方与潜在投标人直接接触, 有效减少后续招投标过程中投标人对评测工作和结果公正性的质疑。该方式评测工作组由第三方单位人员及其聘请专家组成。如选择自行组织方式, 建议邀请多个单位的相关专家组成工作组, 共同组织开展评测工作。
评测实施方式包括实战化评测和答卷式评测两种。实战化评测, 顾名思义, 以实际工作中的指纹比对任务作为评测题目, 答案事先不明确。此方式在完成评测任务的同时, 能够支撑实战, 但评测周期较长, 一般以年计算。答卷式评测, 即事先准备好指纹比中关系作为测试题目, 将目标指纹预埋在底库中, 参测系统通过源指纹发送比对, 然后统计目标指纹比中情况。该方式评测周期相对较短, 一般在半年以内就可实施完毕。国内已开展的刑侦AFIS系统性能评测中, 公安部、广东采用了实战化评测方式, 而北京、新疆则因为项目执行进度要求等原因采用了答卷式评测方式。
如果评测实施方式选择为答卷式, 则需要根据评测实际要求确定评测底库库容、评测题目数量以及对应数据来源。其中, 底库包括捺印指纹库和现场指纹库。底库数据一般优先从本地指纹库中选取, 如数量不足可以考虑从其他省份指纹库中适当选取。评测题目数据, 可以从公安部掌握的各地历年比中关系或者从本地历年比中关系中选取。评测题目选取时, 首先应确保比中关系的正确性, 同时应合理分配不同难度题目所占的比例。
根据评测具体要求, 制定评测方案。评测方案应至少包含以下内容:AFIS系统搭建要求, 评测内容、指标和计算评价方式、数据输入输出格式等。
对评测方案进行细化和扩充, 制定实施细则或技术规范类文件, 增加对评测详细流程以及故障、异常情况处理流程的描述、人员管理、风险控制等内容。
3.6.1 评测数据准备
准备底库数据和评测题目数据, 之后为了保证评测工作的公平、公正, 防止作弊, 同时确保指纹数据及案件相关信息的安全, 对指纹数据(包括底库数据及测试题目数据)进行脱密处理, 删除文字信息, 加密人员编号及案件编号。脱密过程中, 要保证预埋在底库的目标指纹数据编号应尽量分散, 不能成堆, 且文件修改时间等细节要与非目标指纹数据没有差别。
3.6.2 评测环境改造
评测场所需为封闭空间、有监控, 且无无线信号。在条件允许的情况下, 尽量为各参测厂商分别提供独立的硬件机房和操作间, 公平起见抽签决定房间号。
该阶段需要做的工作包括:按需开展必要的网络及用电改造、监控安装等工作; 安装电脑终端, 配置软件, 并提前部署调试好远程访问的权限控制; 配置网络, 保证各参测系统之间不连通、操作互不影响。
3.6.3 参测厂商搭建系统, 开展预测试、建库工作
评测环境改造完成后, 协助参测厂商按要求搭建AFIS系统, 并下发少量规定格式的指纹数据由各参测系统进行预测试。之后, 下发脱密后的指纹数据, 由各参测系统开展建库工作。建库完成后, 还要进行平库操作, 确保各系统的底库数据完全相同。
准备工作就绪后, 评测工作组开放申请窗口。AFIS系统厂商提交纸质参测申请书(盖公章), 并签署信息安全保密承诺书。
实施计划应细化到小时, 详细描述评测工作的每一个步骤和环节, 具体包含评测入场、评测试题发放、入库比对、比对结果提交、专家复核、厂商自检、结果统计、结果确认等。同时, 还应明确纪律要求和违规处理方案。
严格按照评测实施计划开展陪同监督、数据接收记录、系统操作记录等各项工作。
在进行结果统计之前, 工作组还需组织指纹技术专家对各参测系统的比对结果进行复核, 补充和完善评测标准答案, 并允许各参测厂商派员进行自检和申诉。之后再开展结果统计工作, 并按前期约定的结果公布方式和范围进行结果公布。
本文结合近年来国内组织开展的刑侦AFIS系统性能评测情况, 总结提出了针对刑侦AFIS系统的性能评测体系, 包括评测内容和关键指标, 以及评测方法和工作程序, 可以为公安刑侦部门开展类似工作提供执行参考。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|