第一作者简介:房玉杰,男,山东日照人,硕士研究生,研究方向为行走声音信息采集与识别。E-mail: 1981586371@qq.com
得益于高性能计算机和深度学习算法的不断进步,生物特征识别技术得到快速发展。脚步声识别技术利用人行走时发出的声音或震动信号实现行走人的身份识别,具有隐蔽性、非接触式、不易被伪造和无需被识别人配合等优点,是一种非常有潜力的生物特征识别技术。本文概述了脚步声识别系统的组成部分、基本概念以及脚步声识别系统的性能评价指标,总结了脚步声识别技术中的信号采集方法及其使用的仪器设备、降噪和端点检测信号预处理关键技术、时频域和声学特征参数提取、各种模式识别方法在脚步声识别技术中的应用等方面的研究成果。最后,系统地分析了脚步声识别技术研究中尚未解决的问题,探讨了该研究领域需要进一步探索的热点问题和未来的发展趋势。
Footstep acoustic recognition, one biometric distinguishing technology, is very promising with the continuous advancement of high-performance computer and deep-learning algorithm. Such a technology adopts the sound or vibration signals from walking people to recognize the relevant individual. It is specific of concealment, non-contact, difficulty to forge, and no requirement for cooperation of the recognized people. This article summarizes the footstep acoustic recognition system about its composition, basic concepts and performance evaluation indicators, with elucidation of the research development and progress. The focuses were paid onto the signal acquisition methods and eligible equipment, key technologies for noise reduction and endpoint detection signal preprocessing, temporal frequency domain and extraction of acoustic feature parameters, together with the applications of various pattern recognition approaches. Finally, the problems unknown of solution are systematically analyzed, with the discussions being made into both the hot issues necessary for further exploration and future trend.
随着社会经济的发展和移动互联网技术的进步, 人们对身份识别技术的应用越来越广泛, 同时, 人们对身份识别技术的要求也越来越高。生物特征识别技术具有安全性高、可靠性高、识别效率高以及不会丢失、遗忘的特点, 因此, 被应用于各行各业的身份识别认证中, 并且随着采集设备升级和深度学习算法的快速发展, 生物特征识别技术的可用性得到了极大的提高。生物特征是指人体所固有的生理特征或行为特征, 常用的生理特征有DNA、人脸、指纹、虹膜、指静脉等, 行为特征有笔迹、声纹、步态、击键习惯等[1, 2]。生理特征比行为特征具有更高的稳定性、可靠性和识别准确率, 而行为特征具有更高的防伪特性, 不易被窃取伪造。目前, 生物特征识别技术在金融领域应用最为普遍, 随着手机等移动智能终端的普及, 人们对移动支付和远程支付的需求越来越多, 指纹识别、人脸识别和声纹识别等生物特征识别技术得到了广泛应用。此外, 在公安刑侦与司法鉴定领域, 公安人员能够根据犯罪嫌疑人在犯罪现场遗留的指纹、毛发、足迹等生物特征确定犯罪嫌疑人身份, 为案件侦查提供线索、方向和范围[3, 4]。近年来, 随着人工智能技术的发展, 生物特征识别技术在日常生活的各方面得到应用。脚步声识别技术作为生物特征识别的新兴领域, 在门禁、智能家居、公安刑侦、司法鉴定等领域拥有巨大的应用前景。本文将概述脚步声识别系统的基本概念及其性能评价指标, 主要从信号采集、预处理、特征参数提取、模式识别等方面进行综述, 总结分析脚步声识别技术的研究进展, 并提出了脚步声识别技术研究下一步需要解决的问题。
脚步声包含了行走人的行为习惯特点、身体特征、体重、年龄、性别等基本信息。2010年, 京都大学教授藤田和生等[5]将21只狗分别关进门窗紧闭的屋子, 让狗主人或陌生人在屋外行走, 然后让狗主人或陌生人进屋, 研究人员通过观察狗对进屋人的不同反应证实, 狗能够根据脚步声判断屋外的人是不是主人, 由此可见, 不同人的脚步声是不一样的。
脚步声识别系统与声纹识别系统[6, 7]等生物特征识别系统在组成上基本相同, 脚步声识别系统大致由以下部分组成:脚步声信号采集、预处理、特征参数提取以及与识别模型训练、匹配和决策相关的模式识别, 它们共同构成了脚步声识别系统的训练阶段与测试阶段, 如图1所示。基于脚步声识别系统的不同应用又可以将脚步声识别系统分为脚步声确认系统和脚步声辨认系统[8]。
脚步声作为一种特殊的声音信号, 常用声纹识别系统性能评价指标, 如错误接受率(false acceptance rate, FAR)、错误拒绝率(false rejection rate, FRR)、等错误率(equal error rate, EER)和检测错误权衡曲线(detection error trade-offs curve, DET)等描述脚步声确认系统的识别精度[9]。此外, 常用生物特征辨认系统性能评价指标, 如前N识别率(rank N identification rate)、累计匹配曲线(cumulative match characteristic curve, CMC)等描述脚步声辨认系统识别精度[10]。
在脚步声确认系统中, 错误接受率是指系统将来自冒充者的脚步声测试样本误认作是真实人的比例, 错误拒绝率是指系统将来自真实人的脚步声测试样本误认作冒充者的比例, 公式分别如下:
$ \mathrm{FAR}=\frac{\text { 被系统接受的冒充者脚步声测试样本数 }}{\text { 总的冒充者脚步声测试样本数 }} \times 100 \%$
$ \mathrm{FRR}=\frac{\text { 被系统拒绝的真实人脚步声测试样本数 }}{\text { 总的真实人脚步声测试样本数 }} \times 100 \%$
错误接受率和错误拒绝率的大小与识别系统设定的阈值有关, 阈值设定得越高, 系统的错误接受率越低, 识别系统安全性越高; 阈值设定得越低, 系统的错误拒绝率越低, 识别系统的易用性越好。当错误接受率等于错误拒绝率时, 错误接受率和错误拒绝率的值被称为等错误率, 等错误率的值越小系统性能越好。以FAR为横坐标, FRR为纵坐标, 通过调整阈值的大小得到FAR与FRR之间关系的曲线称为检测错误权衡曲线, 检测错误权衡曲线示例如图2所示。
由图1可以看出, 脚步声识别技术主要包括信号采集、预处理、特征参数提取以及与识别模型训练、模型匹配相关的模式识别等内容。
人行走时脚与地面碰撞产生震动并发出声音, 因此, 脚步声可以通过采集行走时产生的震动信号或声音信号获得。人行走时产生的震动信号和声音信号频率范围为几赫兹到超声频率范围[12, 13]。2006年, Ekimov和Sabatier[14]将麦克风和三轴加速度传感器应用于室内行走声音信号和震动信号的采集, 通过数据观察到声音和震动响应中的两个特征频带, 第一频带由垂直于地面的力产生, 并且集中在低于500 Hz的低频范围内, 第二频带由摩擦力产生, 并位于1 kHz以上的高频范围内; 次年, Ekimov和Sabatier[15]在此基础上提出, 由于行走者腿部刚度的差异, 在正常、轻声等行走方式下, 500 Hz以下的低频范围内信号振幅不同, 而在高频范围内由摩擦力引起的信号振幅基本相同。目前, 主要使用麦克风[16, 17, 18]、麦克风阵列[19]采集行走的声音信号, 使用加速度传感器或地震检波器采集行走的震动信号[20, 21, 22], 或使用麦克风和加速度传感器同时采集行走的声音和震动信号[23, 24]。最初, Itai和Yasukawa[25]将麦克风固定在地面上采集脚步声信号, 该信号采集方式与实际应用相接近, 但在距离麦克风较远处采集到的脚步声信号信噪比很小; Nakadai等[26]为降低环境噪声的干扰使用麦克风阵列采集脚步声信号, 并进一步完成了脚步声信号与其他类别声音信号的分类。脚步声信号波形图示例如图3所示。
脚步声信号采集完成后, 根据所要提取的特征参数和所要建立的识别模型进行信号预处理, 预处理过程中最重要的是降噪和端点检测。脚步声采集过程受到噪声的干扰, 噪声的存在会对脚步声信号的特征提取和模式识别产生不利影响; 由于脚步声信号较弱, 同时受到外界复杂环境的影响, 因此, 脚步声信号降噪比较困难。Xing等[28]提出了一种基于奇异值分解的自适应阈值小波降噪方法, 该方法大大提高了原始脚步声信号的信噪比; 张学渊等[29]在小波包分解的基础上结合局域判别基对脚步声信号特征频带进行划分, 滤除了绝大部分背景噪声; 吴甄非等[30]利用经验模态分解的方法将采集到的脚步声震动信号分解, 得到若干个固有模态函数分量, 从各分量中提取奇异事件并进一步判定该奇异事件是否为脚步声信号, 在一定程度上消除了环境噪声的干扰。
脚步声端点检测的目的是从包含脚步声的一段行走声音信号中确定单个脚步声的起始点和结束点位置, 将采集到的声音信号中脚步声的部分提取出来。在提取某些脚步声信号特征参数时, 只需要对含有脚步声的声音段进行检测或处理; 脚步声端点检测, 既可以减少数据运算量, 又能去除脚步声中行走间隙的环境噪声, 削弱噪声对特征参数的影响。2014年, Tanaka等[31]提出了一种利用频谱变化来检测脚步声开始时间的方法; 次年, Tanaka等[32]进一步确定了脚步声波形存在由撞击产生的尖峰信号和不存在清晰的尖峰信号两种情况下脚步声的开始时间。
在声纹识别中对于降噪和端点检测的研究较为完善, 声纹识别常用的降噪方法有谱减法、自适应滤波降噪、维纳滤波降噪和经验模态分解降噪等方法, 常用端点检测方法有双门限法、相关法、谱距离法、小波变换法等。
脚步声信号特征参数提取是从脚步声中提取出能够表征行走人特定身体结构或行为习惯的特征参数, 并将提取的特征参数作为区分不同行走人身份的依据。脚步声信号受行走人所穿的鞋、行走的地面情况[33, 34, 35]以及行走人的情绪[36]等诸多因素的影响。因此, 脚步声特征参数应具有稳定性高、区分性大的特点, 即同一人脚步声特征参数应具有较高的稳定性, 对所穿的鞋子、行走的地面等因素具有较强的鲁棒性, 不同人之间的脚步声特征参数应具有较大的区分性, 对不同人的脚步声能够进行有效区分, 并且脚步声特征参数应具有不易模仿性和较强的抗噪性。脚步声信号特征参数的选择和提取是脚步声识别系统的关键部分, 行走人识别模型要根据提取的脚步声特征参数建立, 所以, 选取不同的特征参数会对识别结果产生较大的影响。Shoji等[37]从声学、行为习惯等方面考虑, 提取梅尔频率倒谱系数、行走平均时间间隔和频谱包络相似度作为脚步声信号的特征参数; Itai和Yasukawa[38]提取脚步声的响度、锐度、波点强度和平整度作为脚步声的心理声学特征参数; Miyoshi等[39]对脚步声信号的动静态特性进行研究, 并从脚步声信号中提取了对数能量、梅尔频率倒谱系数及其一阶动态差分参数; de Carvalho和Rosa[40]提取脚步声信号的步态频率、线性预测倒谱系数、响度和梅尔倒谱系数, 并分别研究了单一特征参数和多个特征参数组合的情况下识别系统的识别准确率; 张瑞兴等[41]结合脚步声信号的时域波形图, 计算脚步声的间隔时间和脚步声的持续时间, 组成特征向量作为脚步声信号的特征参数, 实现了基于脚步声的身份识别。
国外学者提取的脚步声特征参数以声学特征参数为主, 这类特征参数的缺点是对不同的发声机制较为敏感, 对同一人在不同鞋型和不同地面情况下的脚步声识别有很大的约束性和限制性。国内学者所提取的脚步声特征参数对所穿的鞋型、行走的地面情况等因素具有一定的鲁棒性, 但特征参数比较单一, 识别准确率会随着识别人数的增加而降低。行走人的情绪状态、行为习惯和以左右脚不平衡性为代表的身体状态等也可以作为特征来对不同的行走人进行区分判别, 但是现有的方法既无法找到表征这些高层次特征的有效脚步声特征参数, 又不能将其量化, 所以没有得到较好的应用。为了提高系统的识别准确率, 很多脚步声识别系统都采用了混合参数构成的矢量[42, 43], 若组成矢量的各特征参数之间的相关性不大, 那么由于这些特征参数分别反映了脚步声信号的不同特性, 所以使用混合特征参数将会取得较高的识别准确率。
提取脚步声特征参数后, 对行走人建立识别模型以便对待识别脚步声进行模式匹配。模式识别的目的是在获取表征脚步声个性特征的基础上, 将待识别的特征参数模型与训练学习时得到的模型库作相似性匹配, 得到特征参数模型之间的相似性距离, 并选取合适的距离值作为阈值, 从而识别判断出与模型库中相似度最高的特征参数模型, 由识别系统输出[44]。脚步声识别中常用的模式识别技术主要有高斯混合模型(Gaussian mixture model, GMM)、支持向量机方法[45](support vector machine, SVM)、隐马尔可夫模型[46](hidden Markov model, HMM)、矢量量化(vector quantization, VQ)、人工神经网络[47](artificial neural network, ANN)等。
Tanaka和Inoue[48]对脚步声信号进行频率分析, 提取与步行速度相关的音调频率以及脚步声的第一个峰值频率作为特征向量, 使用欧氏距离法实现了脚步声的简单识别, 识别准确率约为83%。但识别系统仅有15人, 可靠性较差; She[42]提取脚步声信号的持续时间、间隔时间等特征参数, 使用GMM对含有1 479个非脚步声和789个脚步声的数据集进行脚步声识别, 实现了84.16%的识别准确率; Geiger等[49]以TUM GAID数据库中的305名行走人为研究对象, 使用HMM实现了基于脚步声的身份识别, 识别准确率达到65.5%; Riwurohi等[27]应用四个麦克风采集脚步声信号, 并将麦克风分别放置在轨道的左侧、中间和右侧, 进一步提取脚步声信号的梅尔频率倒谱系数, 使用ANN获得了98.75%的识别准确率; 在训练样本不足的情况下GMM阶数较低, 不具有很好的代表性, 因此, Hara等[50]在GMM基础上引入了通用背景模型(universal background model, UBM), 可以在较小的训练集下采用较大的模型混合度进行脚步声识别, 结果表明, 基于GMM-UBM模型的脚步声识别方法既能提高识别准确率, 又能节省计算量。
目前, HMM、VQ、GMM-UBM以及神经网络方法的识别效果比较好, 但神经网络方法要求训练数据量较大, 模型推广和应用比较困难; 并且由于特征参数的鲁棒性不高, 识别系统的识别准确率会随着人数的增加而降低。
1)信号采集方面, 使用麦克风阵列、加速度传感器等成功采集了人行走时产生的声音信号和震动信号, 并对其频率分布进行了分析, 解释了不同频率范围脚步声信号的产生原因。
2)信号预处理方面, 成功地将声纹识别的预处理方法应用到脚步声信号预处理中, 并将小波变换、经验模态分解等应用于脚步声信号降噪处理, 大大提高了原始脚步声信号的信噪比。
3)特征参数提取方面, 成功提取了脚步声信号的声学特征参数、基于行走人行为习惯的频率等特征参数以及与行走人自身相关的能量等特征参数, 这些特征参数在特定条件下具有一定的鲁棒性、稳定性和区分性, 它们组成特征矢量能够大大提高识别系统的识别准确率。
4)模式识别方面, 尝试建立了支持向量机、隐马尔可夫模型、高斯混合模型、人工神经网络等行走人识别模型, 在安静环境、单一鞋型和固定地面情况等特定条件下取得了较高的识别准确率, 为脚步声识别技术的深入研究奠定了基础。
尽管国内外学者对脚步声识别技术进行了大量的研究, 并且该技术在身份识别领域也拥有巨大的应用潜力, 但在某些方面仍然存在一定的困难和挑战, 值得进一步研究探索:
1)脚步声信号降噪困难, 无法得到纯净的脚步声信号。脚步声信号的频率范围大、信噪比低, 现有的降噪方法在保证脚步声信号不失真或少失真的前提下进行降噪比较困难。
2)多行走人混合脚步声识别困难。多行走人混合脚步声是指同时采集两个或两个以上的行走人的脚步声形成的混合脚步声信号, 由于多行走人脚步声信号分离困难, 因此, 多行走人混合脚步声识别困难。
3)脚步声信号特征参数鲁棒性较低。目前, 常用的声学特征参数对鞋型、地面情况以及行走人的情绪、是否携带重物、行走速度等自身情况的变化较为敏感, 因此, 提取鲁棒性高的脚步声特征参数对提高识别系统识别准确率十分重要。
4)脚步声识别技术与其他生物特征识别技术相融合是脚步声识别技术发展的重要趋势, 因为在身份识别过程中考虑了多种生物特征, 所以比单生物特征识别技术更加安全可靠, 能够达到更高的识别准确率。此外, 脚步声识别技术具有以行走产生的脚步声音或震动信号作为定位信息源实现室内移动人员的识别与跟踪定位的潜力。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|
[42] |
|
[43] |
|
[44] |
|
[45] |
|
[46] |
|
[47] |
|
[48] |
|
[49] |
|
[50] |
|