刑事科学技术信息综合应用平台的建立, 就是在整合现有刑事科学技术信息系统的基础上, 建设横向集成、纵向贯通、高度共享[1]的信息综合应用平台, 将刑事科学技术各专业分散的数据库与应用系统进行全面整合和集成化改造, 利用这些现有的数据资源和大量的社会信息, 按照信息工作的运作流程进行有机的关联, 建立数据仓库, 对数据进行再造和深化信息应用拓展, 最大限度地服务于破案实战。
目前, 我国公安机关刑事科学技术正在逐步形成以现场勘验信息系统、实验室管理信息系统和物证管理系统为基础, 以指纹、DNA、声纹、人像、足迹、枪弹等个体识别信息系统为主干, 以鞋底花纹、车辆轮迹、炸药、毒品、毒物、纸张、玻璃等种属查询检索系统为分支, 以技术信息采集体系和查重体系为支撑的刑事科学技术信息一体化应用局面。早期刑事科学技术信息系统的建设往往依据本专业的发展需要进行开发、部署, 面对实战中越来越明确的技术研判和综合应用需求, 已呈现出各专业信息各自为战、信息共享程度低下、资源利用率不高、应用效益不能充分发挥等问题。主要表现在以下方面:
(1)现有刑事科学技术信息系统的数据信息缺少唯一的有效关联, 各专业系统间的数据共享和整合程度不高, 难以支持信息的综合应用和深度研判。刑事科学技术各专业系统建设时, 由于缺乏或尚未遵照统一的技术标准规范, 没有充分考虑系统间的关联控制, 导致各系统数据异构、格式冲突、可扩展性和通用性差, 缺乏开放的互操作接口, “ 信息孤岛” 现象层出不穷, 优质信息资源难以共享, 被孤立于所属的技术专业, 数据的综合应用发展受到限制。如未知名尸体信息系统、失踪人员信息系统等需要进行个体识别的系统尚未与DNA数据库建立关联, 现场勘验系统作为案件信息、物证信息的来源, 与其他系统的关联应用尚不完善。
(2)现有刑事科学技术信息系统的应用发展和弹性扩展效能不高。由于受到阶段性特点的制约, 各专业信息系统建设时往往以自身业务工作流程为需求, 系统管理功能比较完备, 而系统专业功能相对单一, 不同系统的信息独立录入, 各系统对于同一案(事)件系统信息质量不一, 呈现出系统多、数据多但整体规模化应用性不强的现象, 难以实现可持续发展。另一方面, 随着信息技术的迅猛发展, “ 大数据” 时代的到来, 信息资源规模将随业务量不断动态扩展, 现有信息系统的扩展缺乏弹性, 且多会影响服务质量。
(3)软、硬件等基础设施资源利用率较低。目前, 刑事科学技术各信息系统大都采用独立的服务器系统、存储系统进行开发、部署, 这在一定程度上造成了各个专业系统的硬件/软件平台的需求不完全一致, 服务器、网络和存储、中间件软件、应用软件等资源难以有效的集中化管理和合理的资源利用, 出现资源浪费或者分配的不合理, 难以实现基础设施资源的有效共享。
(4)面对复杂多变的信息环境, 刑事科学技术各信息系统的运维难度不断增大。各信息系统的建设开发涉及不同时期、不同研发公司, 刑事科学技术各专业不得不投入专门的人员、经费用于系统的升级维护。信息化专业队伍的匮乏严重制约了刑事科学技术信息化的发展。实现各刑事科学技术各信息系统之间的资源整合、信息共享是刑事科学技术信息化建设发展的必然趋势。本文将探索建设刑事科学技术信息综合应用平台, 以期整合刑事科学技术各专业资源, 实现信息的一体化应用。
刑事科学技术信息综合应用平台(以下简称“ 平台” )按照统一的标准通过数据交换和共享机制, 在综合性信息资源库(如“ 全国人口信息库” 、 “ 全国重大刑事案件信息系统” 等)、刑事技术核心业务数据库(如“ DNA数据库” 、“ 指纹数据库” )中获取各类信息, 逐步形成描述统一、内容完备的包含案(事)件、人员、物品、生物特征、数据关联等信息的数据仓库, 利用一系列的信息研判工具(如“ 比对碰撞” 、“ 信息布控” 、“ 关系挖掘” 等专业工具), 实现刑事科学技术信息资源的动态调度、综合管理、分析研判, 并将研判信息动态发布、推送。
在逻辑架构上, 平台以现有的公安综合性信息系统与刑事科学技术专业系统信息资源为基础, 通过以请求服务或数据抽取方式对各系统中关键信息的数据提取、清洗、整合等一系列过程, 完成数据质量校验以及数据关联关系比对分析, 按照以案、人为中心的研判模式进行建模, 形成完整的刑事科学技术信息数据仓库。在此基础上, 各专业数据库信息在数据仓库中形成有机信息链, 并运用建立的信息研判工具以自动化与人工相结合的方式对“ 信息链” 进行综合研判分析, 实现人员、案(事)件的综合分析(见图1 )。
在物理架构上, 平台建立在一个基于云计算技术的基础设施环境上[3], 通过服务器虚拟化、处理器虚拟化、内存虚拟化、I/O虚拟化, 刀片系统集群、数据集中存储、基于SAN的存储架构等技术将刑事科学技术部门零散的服务器设备、网络设备、存储设备等有效整合成为一个数据中心, 为各类专业应用统一提供开发环境、运行环境、数据库环境, 各个专业信息应用系统的物理硬件建于数据中心的公共计算、存储资源上, 并在逻辑上作为本专业资源, 数据中心按需分配, 从而解决不同的专业信息应用对硬件平台/OS平台的需求不完全一致出现的资源浪费或者分配的不合理, 实现了刑事技术各专业原有的信息化的基础设施、物理资源的共享和机房场地、供电、硬件设备维护的统一管理(见图2)。
平台以包含案(事)件、人员、物品、生物特征、数据关联等信息的数据仓库为数据资源, 它是平台的基本所在, 是将综合性信息资源库、刑事科学技术核心业务数据库中面向案件、涉案人员、现场、比中信息等特定主题的数据获取出来, 经过数据清理后存储而形成的。数据仓库中的数据并不是原有各系统数据的简单复制, 而是根据已确定的主题按照需求经过数据净化、数据转换、格式统一而整合、集成的, 同时它随着各个信息系统的数据变化而定期更新。
根据刑事科学技术信息业务工作需要, 平台建立以“ 人” 为基础, “ 案(事)件” 为重点, 现场物证、生物个体特征、时空信息为研判手段的综合要素构成:
2.2.1 综合性信息资源 数据通过标准接口以外部请求服务方式获取, 主要包括人口信息库、大情报系统、在逃人员信息库、违法犯罪人员信息库、警务综合系统、刑事案件信息系统等数据信息。通过这些信息资源实现案件关联及人员身份甄别。
2.2.2 刑事科学技术核心业务数据库 数据通过整合各刑事科学技术专业数据库获取, 一是个体识别类数据库, 主要包括指纹数据库、DNA数据库、声纹数据库、足迹数据库等; 二是种属查询类数据库, 主要包括鞋底花纹数据库、车辆轮迹数据库、炸药数据库、毒品数据库、毒物数据库、纸张数据库、玻璃数据库等; 三是刑事技术综合业务系统, 主要包括现场勘验信息系统、实验室管理信息系统和物证管理系统等。
平台的核心功能是信息研判, 以刑事科学技术专业数据库中数据比对结果为应用对象, 通过对比中信息中涉及的案件基本信息、人员信息、现场勘查信息、生物特征信息等进行研判分析, 实现人案认定分析、案件串并分析、人员轨迹刻画、重点人员协查分析等功能。
2.3.1 人案认定分析 以比中结果中的人、案关系为主线, 通过人员基本信息、案件现场物证信息等标识类信息进行关联、合并, 实现人案关联确认, 缩小侦查范围, 为案件侦破提供线索。
以DNA数据库[1]中人案比中通报为例, 对于DNA数据库中人员与现场物证的比中通报(包括同一个体比中、亲缘关系比中), 经过数据清洗工具进行数据格式化加工, 提取比中通报中人员姓名、身份证号、户籍地等自然信息及个体生物特征信息, 以请求服务方式向人员信息库、违法犯罪人员库等数据资源进行检索、查询, 实现人员身份甄别, 人员确认或缩小人员侦查范围。
2.3.2 案件串并分析 以比中结果中的案、案关系为主线, 通过案(事)件编号、案(事)件基本信息、涉案人员编号、人员身份证号、作案特征、发案轨迹、人员活动轨迹、团伙分析、生物特征等标识类信息进行关联、合并、续串, 发掘人案关系、案案关系, 最终实现案件串并、案件侦破的目的。
2.3.3 人员轨迹刻画 以比中结果中的人、人关系为主线, 通过人员编号、人员姓名、人员身份证号, 并结合指纹、DNA等生物特征信息进行甄别、确认, 对其作案特征进行归类聚集, 从而发掘有高度作案嫌疑、人员虚假身份、作案团伙等案件线索。
以DNA数据库[1]中人员比中通报为例, 对于DNA数据库中人员比中通报(包括同一个体比中、亲缘关系比中), 经过数据清洗工具进行数据格式化加工, 提取比中通报中人员姓名、身份证号、户籍地等自然信息及个体生物特征信息, 进行数据分类、信息合并, 以反映人员在不同地区、不同省份的活动轨迹, 并以请求服务方式向人员信息库、违法犯罪人员库、在逃人员库等数据资源进行检索、查询, 实现人员身份甄别或人员身份确认。
2.3.4 重点人员协查分析 以来自于大情报系统、警综系统、刑侦专业系统等系统的高关注人员、橙色人员为应用对象, 以人员基本信息、涉案情况、作案特征、生物特征为基础, 综合利用轨迹分析、多维查询、关系挖掘等多种手段, 对人员进行深入分析, 发掘相关线索(见图3)。
2.3.5 主要技术及研判工具 (1)轨迹碰撞:是平台重要的分析工具, 针对海量数据信息的数据仓库, 通过对记录间进行比对产生出关联信息, 从而获取潜在的线索。对于案件, 按照时空关系分析案件发生的顺序和过程; 对于人员, 按照人员在不同地点的活动分析人员轨迹; 对于现场物证, 分析涉案物品的来源和去向。技术实现主要采用内存数据库技术与共享内存技术结合方法将全部有效比对数据纳入内存中管理, 分为数据精确比对与模糊比对两种方式。例如DNA数据库、指纹数据库的数据比对引擎。
(2)多维布控:对重点案件或重点人员采用身份证号、车牌号、手机号码、案件信息、时空信息等各类标识类信息在系统内进行全方位布控。平台内部系统会自动查找布控案件、人员相关信息的变更、比中情况, 一旦内部数据自动分析结果出现布控对象的相关信息, 平台以预警信息方式进行提醒并对部分结果实现智能处置。
(3)海量数据的综合查询、检索:针对平台数据仓库中所有信息提供一站式查询。通过统一的查询入口, 以任意标识类信息为条件, 从海量数据中进行检索, 检索结果按照多级分类方式呈现, 实现刑事技术信息中人、案、物、现场、串并、比中等多维信息一体化展现。技术实现采用Lucene全文检索引擎工具, 形成高性能、可伸缩的信息搜索(IR)库, 以提供完整的查询引擎和索引引擎。
(4)模型分析:根据刑事技术专业信息化应用需求建立多种模型算法, 设定业务分析模型。分析模型主要包括警情分析模型、类案分析模型、自动串并分析模型、重点群体分析模型等。技术实现采用数据挖掘方法建立相应模型。
(5)关系挖掘:通过关联关系分析发现要素之间的关系, 如从个案(或人、地址等要素)出发, 搜索到与之有关联的其他所有案件以及案件数据项, 并根据用户指定的挖掘深度进行延伸扩展。如挖掘深度为2, 则会搜索出所有与当前案件最多通过两条关系线即可连接上的所有其他案件及案件数据项。技术实现采用人工智能方法建立关系网络结构图。
综上所述, 本文结合刑事科学技术信息系统现状及发展趋势, 对刑事科学技术信息综合应用平台建设进行初步探索, 对平台的应用架构、主要功能和关键技术及应用模式进行了分析。刑事科学技术信息平台的建立及其在信息研判中发挥的独特作用, 必然会对刑事科学技术信息化工作带来深刻的影响与变革。
The authors have declared that no competing interests exist.