“人工嘴”在语音声学分析中的应用研究

引用本文

王莉, 王晓笛, 康锦涛, 盛卉, 李敬阳. “人工嘴”在语音声学分析中的应用研究[J].刑事技术, 2019,44(1):9-12
WANG Li, WANG Xiaodi, KANG Jintao, SHENG Hui, LI Jingyang. Mouth Simulator in Acoustic Analysis[J]. Forensic Science and Technology,2019,44(1): 9-12 复制到剪切板

doi: 10.16467/j.1008-3650.2019.01.002
Permissions

《刑事技术》编辑部

“人工嘴”在语音声学分析中的应用研究

王莉, 王晓笛^*, 康锦涛, 盛卉, 李敬阳

公安部物证鉴定中心,智能语音技术公安部重点实验室,北京 100038

* 通讯作者：王晓笛（1981—）,女,北京人,硕士,副研究员,研究方向为声纹鉴定。E-mail: wangxiaodi@cifs.gov.cn

第一作者简介：王莉（1969—）,女,吉林舒兰人,学士,副研究员,研究方向为声纹鉴定。E-mail: wangli@cifs.gov.cn

基金资助: “十三五”国家重点研发计划项目（No.2016YFC0801102）

摘要

“人工嘴”是一种可以模拟人嘴发声的放音装置。它在近场范围内能够精确模拟人嘴所产生的声场,专门用于电话、手机及电声元器件等传输和通信类产品中麦克风通路的声学特性的检测。本文主要介绍通过提取“人工嘴”播放的语音（测试语音）与源语音（音源）的语音质量感知评估（perceptual evaluation of speech quality, PESQ）得分、基频和能量、共振峰、感知线性预测系数和信道因子等五个声学参数,分析比较二者之间存在的差异,来评估“人工嘴”对语音声学特征的影响。通过实验可知,“人工嘴”作为一种新型的放音装置,在使用过程中对语音质量和语音声学参数的影响是客观存在的,但程度不同;差异最大值出现在PESQ的评测结果中。这为“人工嘴”在今后相关项目中的应用奠定了数据基础,具有一定的参考价值。

关键词: 人工嘴; 语音特征; 语音质量感知评估; 基频; 共振峰

中图分类号:DF793.2 文献标志码:A 文章编号:1008-3650(2019)01-0009-04

Mouth Simulator in Acoustic Analysis

WANG Li, WANG Xiaodi^*, KANG Jintao, SHENG Hui, LI Jingyang

Institute of Forensic Science, Ministry of Public Security (MPS), MPS’ Key Laboratory of Intelligent Speech Technology, Beijing 100038, China

Abstract

Mouth simulator, an audio device used to imitate human voice, can exactly mimic human mouth speaking to generate sound field in near range, having its special purpose for either sound transmission through telephone, mobile phone, acoustic components or detection of acoustic features about microphone channel in communication products. With the extracted voices of the sampling (broadcast by mouth simulator for test) and the source, the comparison was here made on five acoustic parameters of PESQ (perceptual evaluation of speech quality), fundamental frequency, formant, PLP (perceptual linear predictive) and i-vector so that the difference can be recognized between the sampling and source voice, making the impact assessed of mouth simulator on acoustic features. The experiment indicated that mouth simulator, as a new type of audio device, inevitably has its effect on speech quality and acoustic parameters in practical usage despite the different degree. PESQ evaluation showed the maximum difference.

Key words: mouth simulator; acoustic features; PESQ; fundamental frequency; formant

文章图片

在以往的研究中, 常考察同一说话人语音特征的稳定性、变异性以及不同说话人之间语音特征的差异性^[1], 分析时大都提取说话人相同音节的基频、共振峰^[2]、音强、过渡音征^[3]等参数进行比较, 唯一难以控制的是音源的同一。随着科学技术的不断发展, 新型的仿生放音装置应运而生, 如何利用这些仪器设备为课题研究注入新的动力, 是现阶段值得思考的新问题。

“ 人工嘴” 是一种可以模拟人嘴发声的放音装置。它在近场范围内能够精确模拟人嘴所产生的声场, 专门用于电话、手机及电声元器件等传输和通信类产品中麦克风通路声学特性的检测。目前, 对它的研究主要围绕频率响应、最大输出声压级和谐波失真声学特性^[4]等, 尚未发现与语音学分析相结合的实践研究。为了全面考察测试语音与源语音之间的特征差异, 本研究除采用基频、共振峰等常用参数外, 还引入2001年国际电信联盟（International Telecommunication Union, ITU）提出的语音质量感知评估方法评测语音质量和感知线性预测系数^[5]、信道因子和动态时间规整（dynamic time warping, DTW）算法^[6], 不断丰富和拓展实验设备和研究思路。“ 人工嘴” 能至少在200~8000 Hz频率范围内发出稳定的声信号, 一般在MRP处应大于100 dB。

1 材料与方法

1.1 实验设备及环境

笔记本电脑2台：ThinkPad X200（2.26GHz 2.27GHz CPU, 4GB RAM Windows 7 专业版）; Adobe Audition 1.5专业音频编辑软件; 语音质量及声学参数相似度评价工具（PESQ算法、感知线性预测系数、信道因子和DTW算法）; RS AM3000 型“ 人工嘴” ：在距离“ 人工嘴” 嘴唇固定位置处提供一个持续稳定的, 低失真的宽频信号, 在输入电压为1 V（0.25 W）的驱动下, 25 mm MRP位置处最小持续声压级为106 dBSPL, 频带范围为100~10 000 Hz, 稳定工作的最大输入功率为10 W; 麦克风：AKG C-4000B, 电容式, 指向性：可在心型、超心型及全指向型之间进行切换, 灵敏度：-32 dBV, 频响范围：20~20 000 Hz。

1.2 系统搭建

图1表示测试语音采集系统, 通过音频线将PC机与“ 人工嘴” 相连, 用PC机播放实验音源通过人工嘴放音, 比照使用者在使用麦克风录音时, 嘴与麦克风的距离(A-B)大约为13.5 cm, 固定人工嘴与麦克风的相对位置。并定义接收语音为测试语音。

	Figure Option View Download New Window
	图1 测试语音采集系统Fig.1 Setup for acquisition of tested speech

1.3 实验音源

1.3.1 单频信号

选取初始值f₀=100 Hz, △ t₀=10 s, f_k= kf₀(k=1、2、3……34)的一组单频信号作为音源, 每5个音频信号为1组（t=60 s）, 100~3400 Hz区间可分为7组, 如表1所示。

表1 单频信号频率与强度的取值范围 Table 1 Collected frequencies and intensities of single-frequency signal

1.3.2 语音信号

1段时长为60 s的男性说话人读说语音。

2 结果与讨论

通过视谱和定量测量发现, 测试语音在基频和能量帧参数（frame parameter, FP）变化不是十分明显, 为此我们引入了段参数（segment parameter, SP）和勒让德多项式参数（Legendre polynomial parameter, LP）进行分析评判, 通过对比经过“ 人工嘴” 传输后的语音与音源之间的基频包络变化来获取相关的目标情况。SP和LP描述的是基频和能量在某一个时间段的动态变化趋势, 相比FP而言, SP和LP反映的信息更加丰富和细致, 反映出的差异也会更加明显。

信道因子是基于感知线性预测系数（perceptual linear predictive, PLP）的提取结果而计算出的声学特征; Dehak等^[7]提出了联合因子分析模型, 采用全空间建模, 对于一段语音而言, 可将其所有可变因素分为说话人空间和信道空间, 由于本实验中不涉及不同说话人, 因此得到的差异仅表示为信道差异, 即信道因子。

2.1 “ 人工嘴” 对单频信号的影响

由于单频信号不符合PESQ、共振峰和信道因子的测试要求, 这里仅比较二者的基频和能量（FP、SP、LP及PLP）, 如表2及图2所示。不同次测试语音与源语音之间存在时长不等, 同一音素无法自然对齐的现象, 因此在分析过程中引入DTW算法, 用于满足一定条件下测试语音和源语音之间的对应关系, 通过时间规整函数求取两段语音匹配时累计的最小距离。DTW表达式为:

这里Q, C分别代表发送语音和源语音。

表2 单频信号各参数的数据 Table 2 Parameters of single-frequency signal

	Figure Option View Download New Window
	图2 单音频信号基频和能量参数Fig.2 Curves of single-frequency signal into its fundamental frequency and energy

由图2知, “ 人工嘴” 对单频信号在FP、SP、LP三个特征参数上总体的变化趋势基本一致, 任意一条语音的得分结果均为FP> SP> LP。在100~3400 Hz频域范围内, 得分最大值出现在600~1000 Hz之间, 最小值均出现在2000~2500 Hz之间, 反映出单频信号在600~1000 Hz区间的基频和能量相对稳定, 与源信号最相近; 在2000~2500 Hz频域范围内基频和能量参数变化较明显, 与源信号差异相对较大。

表2最后一列为感知线性预测系数的分析结果, 在100~3400 Hz频域范围内, 该项分值不足0.32。分析原因主要是由于感知线性预测系数描述的是更深层的语音声学特征及语音对人耳听觉造成的影响等, 单频信号不能很好反映这些特性, 故得分结果明显低于其他参数。

2.2 “ 人工嘴” 对语音信号的影响

为避免单次放音存在的不足, 将实验音源（一段时长为60 s的男性说话人读说语音）重复播放150遍, 各声学参数取均值和方差（表3）, 来评估经过“ 人工嘴” 放音后的语音与源语音的异同。

表3 语音信号各参数的数据 Table 3 Data on parameters of speech signal

由表3可知, 在基频和能量（FP、LP、SP）、共振峰、感知线性预测系数（PLP）、信道因子的分析中测试语音与源语音得分结果均较高, 说明“ 人工嘴” 这一放音装置对于语音在这几项参数中影响均较小。

值得注意的是, 由于测试语音所包含的信息量较单频信号更加丰富, 测试语音的感知线性预测系数分析结果较之前的结果要高, 基于感知线性预测系数提取的信道因子的得分也相对较高。感知线性预测系数作为一种深层的语音声学特征, 它每帧提取到的是一个39维的特征向量, 能够反映出比其他参数更加明显的特征差异, 因此它的得分结果相对其他参数要低。

PESQ的正常得分区间在1.0~4.5之间^[8], 经过“ 人工嘴” 放音后的语音得分为3.404; PESQ是目前与平均意见值（mean opinion score, MOS）评分相关度最高的客观语音质量评价算法, 通常在数字语音通信中, MOS值在3.0分以上的语音可以被认为拥有比较好的语音质量^{[9, 10]}; 因此, “ 人工嘴” 对测试语音在PESQ语音质量评测结果影响不大, 适用于相关领域的进一步研究。

方差反映出不同次测试语音得分与总分均值之间差异, 方差结果小, 说明各参数不同次测试语音之间的差异小、稳定性较高, 即“ 人工嘴” 的稳定性较高, 适用于重复性实验。

3 结论

本研究结果表明, “ 人工嘴” 作为一种新型的仿生放音装置, 在使用过程中虽然对语音质量和语音声学参数有客观影响, 但并不显著。这一分析结果仅为后续实验提供数据参考, 是否适用还要依据具体情况分析判断。

参考文献

文献选项

[1]	段文君, 贾媛, 冉启斌. 山东方言焦点语音实现的共性和差异性特征—以济南、聊城、淄博方言为例[J]. 清华大学学报(自然科学版), 2013(6): 835-838. [本文引用:1]
[2]	柳林, 方磊, 李敬阳. 移动通信信道下声纹鉴定研究[C]//第一届全国声像资料检验鉴定技术交流会论文集. 北京: 中国人民公安大学出版社, 2011: 616-623. [本文引用:1]
[3]	彭梦娅, 刘亚丽. 区别特征单音节评测中过渡音征的影响[J]. 中国传媒大学学报(自然科学版), 2017(4): 64-69. [本文引用:1]
[4]	杨德俊. 人工嘴声学特性校准方法探讨[J]. 电子质量, 2012(5): 59-60. [本文引用:1]
[5]	蔡尚, 金鑫, 高圣翔, 等. 用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数[J]. 声学学报, 2012(6): 667-672. [本文引用:1]
[6]	张连海, 冯志远, 陈琦, 等. 基于动态时间规整的语音样例快速检索算法[J]. 计算机应用研究, 2014(6): 1688-1692. [本文引用:1]
[7]	DEHAK N, KENNY P J, DEHAK R, et al. Front-End Factor Analysis for Speaker Verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4): 788-798. [本文引用:1]
[8]	赵斐, 徐勇, 成立新. PESQ及其作用[J]. 电子设计应用, 2003(3): 28-30. [本文引用:1]
[9]	陈华伟. 语音通信中音质客观评价研究[D]. 成都: 西南交通大学, 2007. [本文引用:1]
[10]	陈国. 语音质量客观评价理论与方法研究[D]. 武汉: 华中科技大学, 2001. [本文引用:1]

2013

0.0

段文君, 贾媛, 冉启斌. 山东方言焦点语音实现的共性和差异性特征—以济南、聊城、淄博方言为例[J]. 清华大学学报(自然科学版), 2013(6): 835-838.

该文选取山东方言西齐区的济南、聊城、淄博为实验研究对象,采用声学实验方法对比分析3个方言在焦点语音实现方面的异同,并在实验结果的基础上探讨了山东方言内部焦点实现的共性和差异性特征。研究结果表明:在焦点实现方面,3个方言焦点后位置F0音域的压缩是普遍现象;而在焦点位置上,济南、聊城的F0音域有显著扩展,淄博的F0音域无显著变化。3个方言点中,时长和音强受焦点的影响变化不显著。

... 在以往的研究中,常考察同一说话人语音特征的稳定性、变异性以及不同说话人之间语音特征的差异性^[1],分析时大都提取说话人相同音节的基频、共振峰^[2]、音强、过渡音征^[3]等参数进行比较,唯一难以控制的是音源的同一 ...

2011

0.0

2017

0.0

彭梦娅, 刘亚丽. 区别特征单音节评测中过渡音征的影响[J]. 中国传媒大学学报(自然科学版), 2017(4): 64-69.

摘　要：为将区别特征应用于语音评测,需分析区别特征应用的可行性及过渡音征对区别特征单音节评测的影响。利用区别特征探针参数并在区别特征决策树中逐层判断的方法进行单音节中声母和韵母的唯一确定,对含过渡音征的语音样本信号与无过渡音征的语音样本信号分别计算声母正检率,两组正检率显著性检验结果显示无显著性差异,因此建议在区别特征单音节检测中不考虑过渡音征。该结果可以为进一步将区别特征应用于普通话语音客观评测提供参考。

2012

0.0

杨德俊. 人工嘴声学特性校准方法探讨[J]. 电子质量, 2012(5): 59-60.

摘　要：人工嘴是一种模拟人嘴发声的声源,它被广泛应用于电声产品的测试当中。它声学特性的好坏直接影响整个测试结果,因此,对于人工嘴的声学特性校准是十分必要的。参照国际电信联盟和IEEE通讯协会起草的标准,通过作者日常试验情况,总结心得,与读者一起探讨人工嘴的校准方法。

2012

0.0

蔡尚, 金鑫, 高圣翔, 等. 用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数[J]. 声学学报, 2012(6): 667-672.

2014

0.0

张连海, 冯志远, 陈琦, 等. 基于动态时间规整的语音样例快速检索算法[J]. 计算机应用研究, 2014(6): 1688-1692.

摘　要：为了提高基于DTW算法的语音检索系统的速度,提出了一种基于分段累积近似下界估计的动态时间规整算法,实现语音样例快速检索.该方法首先提取查询样例和测试集的音素后验概率作为特征参数,然后计算语音样例和测试集中所有候选分段实际动态规整得分的分段累积近似下界估计,最后采用K-最近邻算法与动态时间规整算法搜索与语音样例相似度最高的区域.实验结果表明,此算法的检索速度比直接运用DTW 算法快6.32倍,而对其检索精度无任何影响.

2011

0.0

... Dehak等^[7]提出了联合因子分析模型,采用全空间建模,对于一段语音而言,可将其所有可变因素分为说话人空间和信道空间,由于本实验中不涉及不同说话人,因此得到的差异仅表示为信道差异,即信道因子 ...

2003

0.0

赵斐, 徐勇, 成立新. PESQ及其作用[J]. 电子设计应用, 2003(3): 28-30.

本文介绍了基于听觉模型的PESQ(Perceptual evaluation of speech quality)客观音质评价方法.它适用于更宽的网络环境,包话模似连接、编解码、包丢失和时延时延变化.

... 5之间^[8],经过#cod#x0201c ...

2007

0.0

陈华伟. 语音通信中音质客观评价研究[D]. 成都: 西南交通大学, 2007.

现代通信系统提供了广泛的语音服务，语音通信已经成为生活中不可或缺的交流方式。通信技术和通信服务的发展促进了对通信系统性能的评价需求，评判语音通信系统性能优劣的根本标志之一是系统所输出语音质量的好坏，因此准确有效的语音质量评估技术是提高通信系统性能的关键技术。主观评价能真实反映人对语音质量的整体满意程度，但主观评价费事费时且不适合实时性场合。近年来，以计算机信息处理为核心的语音质量客观评价成为大家关注的研究热点。本论文以军事研究项目为背景，对通信中的语音质量客观评价展开了广泛深入的研究。本文首先阐述了语音质量评价的含义，在介绍语音质量客观评价的原理及研究现状之后，指出了客观评价中存在的部分问题，并简要说明本论文的主要工作。第二章提出了一种语音特征参数MFSC，相比于MFCC，MFSC分析体现了更多的感知分析特性。将使用MFSC作为特征参数的客观测度Mel-SD用于语音质量评价测试，实验结果表明，相比于PESQ、Mel-CD，Mel-SD具有更好的客观评价性能，且Mel-SD具有对滤波器组构造变化和压缩因子变化的鲁棒性。以改善客观测度的评价性能为目标，第三章提出使用PSO算法获取语音特征参数中各维分量对音质客观评价性能的相对重要性关系。论文通过将这个问题转化为优化问题，分别使用实数编码和二进制编码的PSO算法完成特征参数MFCC和MFSC各分量权系数的优化和特征子集选择的组合优化，既得到特征参数分量之间的相对重要性关系，又有效地改善了Mel-CD和Mel-SD的评价性能。针对前向神经网络训练时间长及泛化性能不确定性的缺陷，论文提出了一种训练前向神经网络的学习算法——双向权值调整算法(BPWA)。BPWA可以在正向和反向阶段对权值作出调整，且保证输出权值是最小范数解，该算法具有较快的学习速度，并有利于保证所训练网络的泛化性能。针对GCNN这种新型神经网络，第四章通过定义新的广义同余函数，增加广义同余神经元的可调参数，简化GCNN的网络结构，对GCNN做了改进。论文中使用BPWA分别训练单隐层sigmoid神经网络和改进型GCNN，建立语音质量感知模型，实验结果表明，基于BPWA-NN和BPWA-GCNN的语音质量客观评价系统具有良好的评价性能。语音中所蕴涵的时间信息被认为是听觉系统能够分离和理解语音的重要信息。针对语音信号短时分析中时间信息缺失的问题，第五章中使用Lyon被动长波模型模拟语音信号在耳蜗中的非线性处理过程，将语音从一维空间转换到二维空间的耳蜗图表示，再通过自相关操作得到语音的相关图。论文使用灰度共生矩阵来描述相关图特征，并从中提取特征参量作为语音质量评价的测度。实验结果表明，能量测度、熵测度、一致性测度的估计结果与主观MOS值之间的相关度超过0.9，这种使用相关图特征参量的音质客观评价是一种有效的评价方法。通信中的语音可懂度客观评价是一项新的研究课题，具有重要的应用价值。第六章利用RBFNN的良好的分类特性和通过矢量量化得到的转移概率矩阵实现了两种可懂度客观评价的方法：OIM-RBFNN和OIM-TPD。实验结果表明，使用神经网络映射模块的OIM-RBFNN和OIM-TPD评价具有可行性和有效性，当使用MFCC特征参数时，OIM-RBFNN和OIM-TPD的评价性能更稳定。

... 0分以上的语音可以被认为拥有比较好的语音质量^[9,10] ...

2001

0.0

陈国. 语音质量客观评价理论与方法研究[D]. 武汉: 华中科技大学, 2001.

... 0分以上的语音可以被认为拥有比较好的语音质量^[9,10] ...