第一作者简介:徐杰,男,江苏张家港人,本科,正高级工程师,研究方向为痕迹检验。E-mail: zjgxujie@sina.com
大数据时代,海量指纹数据的汇聚对指纹识别系统的比对精度和速度带来了挑战。能否实现对现场指纹图片在海量样本库中的“以图搜图”,即无需对指纹图片进行特征编辑即可快速比对(无特征比对),是一线部门提出的实战需求。本文以“云痕”智能指纹识别系统为例,介绍一种将人工智能引入指纹识别领域,采用自适应小波框架与主动式深度学习的比对技术和总线级协同计算的计算技术,建设指纹亿级数据库的技术创新,使得指纹的比对精度和速度得到提升。结合笔者单位警务工作,介绍了“云痕”系统应用于电脑端和移动端的指纹比对场景,对比分析了人工智能与传统指纹识别系统在指纹表述信息量及比对精度等方面的技术优势,并对人工智能在指纹识别方面的应用前景进行了展望。
Great challenges have been being brought to the fingerprint identification systems into their matching accuracy and speed with the so-called big-data collection and entries of billions of fingerprints. Forensic experts and practitioners expect an automatic fingerprint recognition technology (also known as non-minutiae-based matching) would be applied so as to eligibly search out the matched fingerprint from the fingerprint gallery with just an intact shot-on-the-scene image of fingerprint. YUNHEN, an intelligent fingerprint identification system, has thereby been smartly created for coping against the above-indicated challenges. It is an innovative facility, taking the advantages of self-adaptive wavelet algorithmic framework, proactive deep learning and BUS synergy, so that it can realize the approvable accuracy and speed of fingerprint matching among a billion-level data gallery of fingerprint. Exampled with the policing practical utilization, YUNHEN system was here introduced into its actual scenarios of fingerprint matching applied throughout the ends of computer and mobile phone. Accordingly, such an artificial intelligent operational facility was compared and analyzed against the traditional fingerprint identification system on terms of delivered fingerprint information capacity and accuracy, demonstrating its overwhelming advantages. Finally, prospect was envisioned about the application of artificial intelligence into fingerprint identification.
1892年, 英国人高尔顿(Francis Galton)著《指纹学》, 对指纹鉴定理论进行系统分析, 指出指纹具有生死不变和人各不同的特性, 两枚指纹如果相当数目的特征点可对应时, 即可证明同一[1]。一直以来, 指纹专家通过肉眼观察, 根据指纹纹型和纹线流向是否一致, 细节特征的形态、位置是否相符合来鉴定识别嫌疑人[2]。20世纪70年代早期, 随着计算机技术的发展, 美国联邦调查局联合国家标准局开展了指纹自动识别系统的可行性研究。1986年美国《执法技术》期刊报道了全球首例通过指纹自动识别破案的成功案例:70年代中期, 旧金山一起枪击案现场提取的犯罪指纹, 在10年间经专家上千次的人工比对, 均未找到作案人; 警方使用指纹识别系统检索后, 在6 min内即比中嫌疑人, 当天就将凶手拘捕归案[3]。在国内, 北京市公安局会同清华大学、上海市公安局联合北大方正集团开发指纹识别系统, 部分省市引进美国COGENT、日本NEC、法国Morpho等指纹识别系统, 相继比破了大量的刑事案件, 成为打击犯罪的重要科技利器。指纹识别进入计算机识别阶段, 是指纹识别发展史上的技术革命, 它改变了人工查档模式, 极大地提高了工作效率。但是, 随着亿级海量指纹数据的汇聚, 比对算法对比对精度和速度的影响凸显。并且, 一线刑事技术人员提出, 能否在案发现场对现场指纹不编辑细节特征, 即可在海量指纹库中“ 以图搜图” , 实现无特征快速比对, 满足基层刑侦部门对快勘快比、快侦快破的实战需求。这亟需对指纹识别技术开展技术创新、模式创新和应用创新。
近年来, 深度学习算法的突破引发的第三次人工智能浪潮, 以及云计算带来的算力进步和大数据技术对海量数据的汇集与整合, 使得人工智能技术快速走向成熟, 并逐步落地产业应用[4]。人工智能和指纹鉴定方面的专家为此开展合作研究, 将人工智能应用于指纹识别领域, 期盼给指纹识别带来新的技术革命。
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学[5]。人工智能尝试了解智能的实质, 并生产出一种新的能以与人类智能相似的方式做出反应的智能机器, 该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能基于大数据对数据进行知识管理, 构建具有自我反馈能力的专家系统, 进行更加精准的用户画像、文本理解和图像识别。
麦肯锡全球研究所对大数据给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合, 具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征[6]。大数据技术的战略意义不在于掌握庞大的数据信息, 而在于对这些含有意义的数据进行专业化处理。因此, 数据经收集、传输、存储, 经过处理(清洗和过滤)得到高质量的数据, 再经分析(分类或查找关系规律)得到知识, 最后通过检索和挖掘升华为智慧。
机器学习是人工智能的核心, 是使计算机具有智能的根本途径。早在1994年, 基于人工神经网络(artificial neural networks, ANN)的机器学习方法就已被应用在指纹图像的预处理、特征提取、识别与分类等领域[7]。国内也有学者采用深度卷积神经网络来优化对现场指纹的处理及提高正查比对的精度[8]。
近年来, 高性能计算已在飞行模拟、气象观测、爆炸模拟、密码破解等领域广泛应用[9]。高性能异构并行计算的本质是把任务分发给不同架构的硬件计算单元(如CPU、GPU、FPGA、ASIC等), 从软件角度促进高效的开发过程, 从硬件角度通过多种不同类型的计算单元、利用更多时钟频率和内核数量提高计算能力, 并通过技术优化提高计算的执行效率。
人工智能在警务领域的研究应用越来越广泛, 有的将人工智能应用于犯罪高发区域、犯罪高危人员方面的预防控制犯罪, 有的探索在监所管理、道路交通管理、公安通信领域等方面的应用, 有的将自然语义分析技术应用于公安各类笔录进行信息的分析提取, 为刑侦部门提供案件串并等侦破线索, 但目前主要集中在智能视频监控、人脸识别、车辆特征识别、图像检索等方面[10]。
在法庭科学领域, 刘志勇等[11]介绍了人工智能在法医学中的应用与展望, 占梦军等[12]开展了人工智能在青少年骨龄方面的应用研究, 周圆圆等[13]报道了基于人工智能硅藻自动化识别系统的实际案例应用, 刘一文等[14]探讨了人工智能在足迹检验方面的应用。
2018年, 公安部第三研究所与北京大数据研究院开展科研合作, 基于图像识别技术, 运用深度学习的人工智能技术和高性能并行计算技术, 研发人工智能指纹识别系统。以下以“ 云痕” 智能指纹识别系统(简称“ 云痕” 系统)为例介绍其技术特点。
以往指纹识别技术的核心算法是基于传统指纹一级(纹型、中心、三角等宏观特征)、二级(细节点及其方向等微观特征)特征指纹鉴定理论或其他专家知识和经验而形成的专家系统, 这些指纹识别系统是对指纹人工鉴定方式的计算机模拟与扩展, 主要是基于指纹一级、二级特征原理进行比对鉴定的, 即对指纹灰度图像进行直方图均衡、方向滤波去噪、二值化、细化和后处理, 得到一幅含有较少虚假细节、纹理较为清晰的点线指纹图; 提取细节点作为特征来表征指纹图像; 通过比对这些细节点进行识别, 确定是否同一[15]。
人工智能指纹识别技术的算法原理是在传统指纹比对算法的基础上, 利用自适应小波框架深化和丰富了对指纹图像的特征表述, 实现了特征信息量较传统特征空间的量级提升。而利用主动式深度学习技术, 可以大幅减少比对性能提升所需的标签样本数量, 实现了比对精度从实验水平到实战水平的快速提升。在系统应用中, 只需输入指纹图像, 无需人工干预处理, 即可进行指纹比对计算, 保证了指纹比对结果的稳定性。
小波框架是图像的频域表示, 对于加性噪声和部分非线性形变都具有非常强的鲁棒性, 并且对几何变换保持协变。自适应算法是以数学模型表示不断逼近目标, 以取得最佳处理效果的过程。使用自适应小波框架作为指纹比对的指纹图像数字表述, 无需考虑指纹图像在空间上的平移和旋转, 可以直接进行比对。
主动学习是一种机器学习框架, 它的核心任务是制定选取样本的标准, 研究选择尽可能少的最有价值的数据样本来训练出一个高效的学习模型。选用大量清晰捺印指纹图像, 通过稀疏字典学习方法, 构造指纹图像的自适应小波框架最优表示。这样获得的指纹图像特征, 取到较强的指纹信号能量, 而其他背景干扰信号能量将被削弱, 对于指纹图像有丰富的表示和区分度。将自适应小波框架与主动式深度学习技术应用于指纹比对[16], 这种方法提出了指纹介观特征的概念, 即位于大致对应于图像中的一个像素的微尺度与大致对应于整个图像的宏观尺度之间的特征, 是基于指纹图像的空间频率表示, 进而使用深度神经网络来增强, 并被组织成结构化阵列进行计算机比对。
指纹比对性能往往取决于指纹比对核心技术的路线选取。针对数亿级规模的指纹图像数据, 新一代的指纹比对算法使用异构计算架构, 部署于GPU+CPU异构超算集群中, 将比对、排序等不同计算任务分配到合适的计算设备上进行。数据库服务器采用非关系型数据库系统, 用于管理现场及人员指纹图像库。处理服务器用于自动提取图像特征。协同服务器用于调度用户发送的比对任务, 将任务存入队列并分发到比对服务器, 比对服务器在系统启动后将指纹图像从硬盘载入到内存中, 将较大的指纹库分解为多个指纹子库, 处理协同服务器发送过来的任务, 并将比对结果发送至协同服务。Web服务器面向客户端用户, 提供各种查询。采用分布式技术后, 由多台节点与主服务器同时承担指纹图像处理, 系统采用分库并行比对技术, 将大容量指纹特征划分成若干段, 由高性能比对服务器同时进行查询及比对, 提高了指纹的查询响应速度[17]。采用总线级数据协同计算, 减轻指纹比对计算中的I/O瓶颈, 极大地提升了计算效率。
“ 云痕” 智能指纹识别系统汇集了公安部门数十亿级的指纹数据, 建成了全国指纹大数据库, 笔者自2018年开始探索该研发成果在本单位的实战应用, 见证了该技术从可行到可用再到精良的过程, 以下主要介绍该系统的应用情况。
“ 云痕” 系统建有现场库和人员库, 具有一般指纹识别系统都有的正查、倒查、串查和查重功能。指纹通过两种方式入库, 一种是人工导入, 一种是通过移动端App拍摄入库。
人工导入支持FPT和图像两种格式。对现场指纹有图像处理及相关辅助检视功能, 能够实现特征标注、纹线追踪、任意旋转和缩放、指纹图像增强等功能。在系统判定的指纹比中区域, 根据相似度的大小, 按红> 黄> 绿进行颜色提示(图1)。目前建有全国指纹数据库、本地市指纹库、指纹联盟库, 可以同时提交多个数据库进行比对。
3.2.1 “ 云痕易指” — — 应用于电脑端的指纹比对
以张家港市公安局为例, 在实战中, 应用该识别系统对往年反复比对未比中的现场指纹进行翻库比对, 比中往年积案373起, 多数是残缺、变形等疑难指纹。在公安部指纹会战及全国各地的实战应用中, “ 云痕” 系统比中了一些疑难指纹, 从而突破了一批命案积案。以下是笔者收集的应用该系统的实战案例:
1) 图2A的现场指纹为箕型纹与斗型纹两枚残缺指纹重叠形成, 系统比对的候选结果第一名为斗型纹, 比对得54.3分, 认定同一。
2) 图2B为残缺现场指纹比中人员, 比对得45分, 排名第一。
3) 图2C图像模糊且有文字背景干扰, 比对得54.4分, 排名第一, 认定同一。
4) 图2D由于遗留部位和面积原因, 无法准确判断指纹方向, 系统自动旋转45° 后比中, 比对排名第一, 得55.58分。
3.2.2 “ 云痕易拍” — — 应用于移动端指纹比对
因新技术不需要对现场指纹进行特征标注即可比对, 且自动比对的精度和速度满足实战要求, 公安部第三研究所根据张家港市公安局对于指纹快速比对破案的实战需求, 开发“ 云痕易拍” App, 安装于移动警务终端(手机)上, 将该技术“ 前移” 至现场勘查环节, 在现场使用警务手机App拍摄显现的指纹, 通过移动公安网远程录入指纹系统, 自动完成提交、比对, 在指纹数据库中秒级完成比对检索, 反馈比对结果供专家检视, 如经过鉴定比中犯罪嫌疑人, 即实现刑事案件的快侦快破。该技术可应用在案发现场拍摄采集未知名尸体的指纹, 通过指纹比对快速查找尸源。
案例:2019年10月14日, 某市一间烟酒商店被盗, 勘查民警在现场大门处显现了3枚指纹, 使用警务手机“ 云痕易拍” App照相采集并提交比对, 指纹室同步上案开展比对, 2 min即比中嫌疑人员并反馈, 但现场民警反馈该嫌疑人员与案件无关。通过在线沟通, 10 min后, 勘查民警在现场卫生间墙面上提取到4枚指纹, 指纹室再次同步比对, 即比中盗窃惯犯张某山, 实现了案件的快勘快破。以张家港市公安局为例, 2019年基于该技术的在线服务, 79起刑事案件在现场勘查的同时即比中嫌疑人, 为案件的快侦快破提供了重要的技术支撑。
比对精度与比对速度是衡量指纹识别系统比对算法的核心技术指标。随着人工智能的深度应用, 指纹的比对算法、现场指纹的图像处理、特征的自动提取等方面均取得技术突破, 指纹识别技术的比对精度和比对速度得到大幅提升。
传统指纹识别技术以指纹一级、二级特征作为指纹表述和指纹比对的基础, 最近十年发展起来的机器学习与深度神经网络技术, 结合一路发展而来的专家系统, 已经可以很好地完成捺印指纹的一级、二级特征的自动提取, 实现人员捺印指纹的自动化入库, 但是仍部分丢弃了指纹的其他信息。由于指纹表述的信息量有限, 导致在数据量到达一定规模时, 指纹辨别区分度低, 从而限制了比对精度。特别是残缺的现场指纹, 可准确进行人工标注的特征较少, 在数据量较大的指纹库中进行检索时, 难以获得准确的比对结果, 正查比中结果排前率较低。这是近年来传统指纹识别技术难以逾越的大库衰减问题。
人工智能指纹识别技术的指纹表述是由大量指纹图像数据通过机器学习而来, 单枚指纹图像的指纹表述信息量达到传统指纹识别技术的百倍, 其指纹辨别区分度高, 经专家测试和警务实战检验, 指纹比对精度明显优于传统指纹识别系统, 在20亿级指纹库中进行比对搜索时仍未表现出比对精度衰减现象。比中率和总排前率明显优于以往识别系统, 以张家港市公安局为例, 2019年运用该系统共比中案件613起, 其中排名第一的576起, 占比94 %; 排名前三比中601起, 占比98 %。
比对算法影响比对速度。传统指纹识别技术主要数据形态为三维向量集(二维空间坐标和指纹纹线方向), 在指纹比对时, 通过纹型一级特征对指纹库进行分类, 降低指纹比对搜索目标库范围, 提高指纹比对速度。由于现场指纹情况复杂, 有些情况下无法判定一级特征。二级特征的比对计算是上一代指纹比对技术的重点, 无论如何发展和改进, 其算法原理是三维向量集的模式匹配, 指纹比对计算复杂度高, 比对计算速度慢, 在库容较大的指纹库中进行比对搜索时, 往往需要数小时才能反馈比对结果。这个问题反映在实战中, 案件指纹提交至一些省级大库比对时, 有的需要数小时甚至数天才能反馈比对结果。
人工智能指纹表述数据形态本身设计为适合于高性能并行计算使用。从整体来看, 人工智能的计算复杂度比传统指纹识别技术高, 除了使用高性能并行计算设备外, 还把大部分计算前移至人员指纹数据入库时进行, 在人员指纹图像输入后, 即进行图像处理形成指纹表述数据, 为之后的指纹识别高速并行计算做准备。由于无需对现场指纹特征进行人工干预, 输入指纹图像即可进行比对搜索并反馈比对结果; 即使完成二十亿级指纹检索, 也仅需数十秒甚至数秒, 极大提高了指纹识别工作效率。
传统指纹识别系统比对指纹, 一般均需经过录入指纹图像、人工标注特征、提交参与系统检索、专家鉴别四个流程。人工标注特征不仅影响指纹比对工作流程的效率, 而且指纹鉴定人员能力水平不同, 对现场指纹输入前的特征人工标注的处理水平差异及质量会影响指纹比对的结果。除此之外, 不同的指纹比对专家系统形成的捺印指纹库中的指纹一级、二级特征数据不尽相同, 指纹特征标注者需了解其使用的专家系统及捺印指纹库中的数据情况, 才能作出符合该专家系统特性的指纹特征标注, 以获得更准确的指纹比对结果。新技术支持指纹的自动发送查询, 输出结果仅在比对技术更新或被比对库数据更新这两种情况下才会发生变化, 虽然不能完全依赖计算机对指纹的自动处理, 但这样的方式至少能在一定程度上避免人为因素导致的结果不稳定。借助移动警务, “ 云痕易拍” App在案发现场的应用, 将指纹录入由实验室前移到现场, 为大量民生小案的快侦快破提供了技术保证。
人工智能指纹识别系统的核心技术是基于机器学习技术发展而来的, 只要给予更多的有效数据进行深度学习, 其比对精度还可以不断提升。深度学习的可解释性也是一个重要课题, 若能对通过主动式深度学习训练出来的指纹比对模型进行解释, 也许能建立一个指纹表述较传统指纹特征更为丰富的指纹鉴定理论。若有较为完善的理论支撑, 指纹比对也能像DNA比对一样, 不需要专家审核鉴定, 鉴定结果由计算得出也有望实现。另外, 人工智能技术目前在指纹比对领域的应用条件, 受限于我国公安机关所采集指纹数据的分辨率(当前为500 dpi); 若未来将分辨率提升至1 000 dpi, 指纹图像表述的信息量更大, 将会实现更加快速和精准的比对。