汉语普通话音高模式在话者鉴别中的应用
张红兵
中国刑警学院,沈阳 110854

作者简介:张红兵(1979—),男,汉族,河南漯河人,讲师, 硕士学位, 主要从事视听资料检验的研究与教学。Tel:18940177919;E-mail:zhbhn@sina.com

摘要

汉语普通话是声调语言,不同话者在基频水平和声调变化规律方面存在差异。本文利用常规软件分析不同话者的基频数据变化规律,经过归一化和多次曲线拟合后,形成具有明显形态特征的音高模式曲线。通过比对分析音高模式曲线的形态和模式参数差异,可以帮助实现话者鉴别的目的。

关键词: 声调; 话者鉴别; 归一化; 音高模式
中图分类号:DF794.2 文献标志码:A 文章编号:1008-3650(2012)02-0022-04
Research on the application of Mandarin Chinese pitch patterns in speaker identification
ZHANG Hong-bing
China Criminal Police College, Shenyang 110854, China
Abstract

Chinese is tone language; there are differences on pitch level and change of tone between speakers. In this paper, general software was used to analyze the change of pitch data from different speakers, and pitch patterns curves with apparent morphological features were established after pitch data being normalized and fitting. We could identify speaker through analyzing the differences on the form of pitch patterns and parameters.

Keyword: tone; speaker identification; normalization; pitch pattern

汉语普通话声学结构中, 声调作为其超音段特征, 具有辨义的功能, 音高的变化趋势代表着声调的不同。普通话中的音高变化不同, 形成了普通话的多个声调, 汉语的音高变化承载了丰富的语音、语言学信息, 这些复杂的变化, 也反映了话者的个体特性。汉语普通话声调由音高数值和音高变化走向来描述, 后者是话者基频数值高低变化的形态曲线, 而基频数值的变化区间则称为声调调域。

基频作为语音检验领域最为重要的声学特征之一, 在话者鉴别工作中有着不可或缺的应用价值。当前, 司法语音检验对话者基频的提取和描述往往采用随机测量点的绝对值来表征话者的基频变化, 有时甚至采用平均测量结果来衡量话者音高水平, 此类方法不够准确全面地评价和对比话者之间的音高变化。音高的多样性是语音乃至语言的基本要求, 由于个体生理机制和发音动作的变化不同, 不同话者的声调存在着同义不同音现象。如何把握个体声调的变化规律, 具体分析个体声调的差异点, 是研究并应用此类特征的关键。

本文运用便捷的测量统计方法, 通过对汉语普通话语音信号基频的变化规律进行分析, 分析出能够反映话者音高特点的音高模式, 并将复杂的基频作数据统计, 得出的结果一方面可以反映发音人的音高特征, 也能反映话者的语调特点, 为基频音高在话者鉴别中的应用提供更科学的方式, 对司法语音检验工作有较强的指导意义[4, 5]

1 汉语普通话音高模式

话者发音的变异, 除了受生理机制和自身变异等内部因素影响之外, 在检材采集过程中还受到传输通道、拾音方式差异以及混响等外部因素的干扰, 基频数值在一定程度上会发生畸变。因此, 直接比较两者的基频数值无法得出准确结论。针对上述问题, 对于话者音高特点的比较, 研究者曾经提出声调格局的理论, 即通过测量不同测量点的基频数据, 进行归一和相对分析, 用曲线表征话者4种声调的变化格局, 避免了外界因素对基频的干扰, 具体分析如下:

T=lgx-lgminlgmax-lgmin×5

其中x表示待归一化的测量点值; min为最小值, 调域的下限; max为该发音人各点平均值中的最大值, 调域的上限。

话者声调变化可以表征个体特性, 并且可以运用随机采样的方式测量并描绘出话者发音的声调形态, 即音高模式。根据统计学的原理, 话者发音变异前后如果呈现出线性关系, 就可以利用话者音高模式稳定性特征来进行话者鉴别。

1.1 基频获取与处理

目前关于基频提取的方式方法有很多, 个别采用简单地直接选取音节区域求平均值, 或者测量某次谐波频率值, 再除以谐波数后作数据分析; 要么是利用复杂的算法提取基频, 并考虑抗噪性等诸多因素。以上方法要么是在数值准确度上缺乏保障, 要么就是方法过于复杂, 除了给测量者带来繁杂工作量, 而且不利于数值测量的人工修整。况且无论采用何种算法都很难抽取出真实的个体声带震动变化规律。本文综合Praat软件的基音标注法和特有的随机点等距测量工具, 在测量的同时还可以对基音的突变进行分析和手动修整, 以使基音变化走势符合标准发音。

随机选取基音变化线上的10个等距点, 得到其各自的坐标值。同一话者同声调的不同次发音, 会产生发音时长的差异, 可以平均后作为标准值来进行归一化处理, 选取L± 20%长度范围内的曲线作为测量对象, 以避免基频时长问题带来的影响(见图1)。

图1 Praat基频标注分析图

图1中圆点表示程序分析出来的该时点的基频值, 如果基频值较为工整, 无畸变现象, 可以直接对分析结果进行测量; 如发音受内外因素的影响, 导致不符合正常规律的点出现, 则可以人为干预, 根据前后点的分布以及声调种类进行修正。针对基音频率的误差修正, 尽量保持在4Hz以内, 同时辅助以窄带语图进行准确测量。

直接测量的基频数据有一定的浮动范围, 不符合话者整体发音的音高特点, 通过结合五度标调法以及声调格局理论, 利用5度值原理对计算结果进行归一化处理。在汉语普通话发音的四个调形中, 阳平、上声和去声发音普遍存在畸变和断点现象, 虽然经过人工干预后回归正常, 但要作为基准进行归一化显然不够准确, 而阴平在多次发音过程中基本上都处于连续状态, 因此本文把阴平曲线的测量平均值作为拟合汉语普通话音高模式的基准。

1.2 音高模式的建立

对基频测量值进行5度归一化处理后, 如果直接在坐标系中标画其位置然后连线, 虽然能大体建立话者音高的模式曲线, 但阳平、上声和去声3类曲线有一定转折走向趋势, 转向半径的大小无法准确描述。另外, 各类曲线的起始、结束位置也无法准确标画。基于此, 本文运用Excel软件对要标画的归一化值进行多次拟合, 使建立的音高模式曲线趋于平滑如图2、3所示。

图2 基频值拟合曲线

图3 音高模式图

图2为话者按不同声调多次发音后, 每个声调对应音节10个测量点测量所得基频均值的分布曲线; 图3横坐标为10个基频测量点标号, 纵坐标为5度归一化后的各点基频值, 曲线上标记“ ◆” 、“ ■” 、“ ▲” 、“ * ” 分别表示阴平、阳平、上声、去声四条音高曲线。

通过对音高模式图直观的观察比较, 可以很容易地总结话者的音高个体特性。模式曲线的走势变化规律是话者自身发音的重要特征, 另外音高模式曲线本身所具有的特征参数也科学地反映了同类声调话者之间的差异,

2 方 法

通过选择不同话者进行不同声调语料库的正常与伪装发音, 比较正常发音时同一话者的不同语料内容的音高模式, 进而比较正常发音时不同话者的相同语料内容的音高模式, 最后比较语音伪装时同一话者伪装前后的音高模式。利用比较分析音高模式曲线形态和音高模式参数的方法, 研究分析音高模式曲线形态的稳定性, 以及利用音高模式进行话者鉴别的可行性。

实验选择3男1女4个话者, 语料内容为四种调形的25组音节, 话者分析对其进行标准发音, 然后使用电话变声器进行伪装发音, 从而形成8个各100库容的语音数据库, 分别命名为M1、M2、M3、W4、MW1、MW2、MW3、WW4。

利用前面所述方法分别拟合出8个语音库的音高模式曲线, 然后进行话者自身和话者间的模式形态及参数比较。

3 结 果

(1)话者区分音节发音的模式曲线对比(见图4)。

图4 M1语料库不同音节的音高模式曲线

通过比较左右两个模式曲线, 其形态走势基本相同, 阴平、阳平、上声和去声之间的相对分布关系趋于一致, 两组曲线都是在6.2~1.8数值区间分布。由于话者不同次发音的变异以及测量过程中的修正差异, 个别曲线的始末存在较小差异。上述分析印证了话者发音所产生的音高模式特征的稳定性。

(2)正常发音语音库之间的拟合曲线对比(见表1)。图5为从四个话者正常发音语料库中抽取的音高模式曲线。

图5 四个话者正常发音音高模式曲线

表1 四个语料库的音高模式参数

通过对比表1正常发音语音库所拟合出的曲线, 可以发现明显的形态差异。M2、W4相对于M1、M3的上声在末端较为平直, 可以分析出后前者相对于后者不存在上声的收音现象。另外, 各个语音库拟合曲线阳平和去声都会存在交叉, 但各自的交叉点位置明显不同, 表征各自阳平和去声曲线的斜率存在明显差异。其次, 各组曲线中曲线交叉点之间所形成的包围区形状也各不相同。诸如此类的差异, 都可以表征出话者音高模式的个体特性。

表1中的数据具体表征话者发音所产生的音高模式分布状态, 可以直观地分析各自曲线的差异关系。

(3)伪装前后的音高变化形态对比。图6图7分别是从M2和MW2语音库抽取的音高模式曲线。

图6 正常音高模式

图7 伪装音高模式

本研究所采用的伪装设备, 是市场中常见的两种电话变声器, 应用在实验中导致话者发音的基音频率产生明显的高低变化。运用前文中对基频数据测量和统计的方法, 分析对比话者变音前后基频数值的对应关系, 发现有较强的比率关系。根据音高模式曲线建立的基本原理, 结合变声前后模式曲线的形态对比, 此类变声伪装虽然使听者在听感上产生明显区分, 但最终所产生的话者个体音高模式特征没有发生本质变异。基于此, 话者鉴别中一旦出现检材和样本之间的伪装差异, 可以考虑采用对比话者音高模式的方法来分析两者的异同。

4 讨 论

司法语音检验过程中, 声调作为汉语普通话的超音段特征, 承载着话者的重要特征。通过科学方法所拟合出的汉语普通话音高模式能够较为客观有效地表征话者的调形变化和调域范围。

本文结合5度标调法和声调格局理论, 运用常用软件测量统计出较为符合话者发音规律的基音数据, 建立起平滑的话者发音音高变化规律曲线, 即话者音高模式。通过比较同一话者不同语料内容的音高模式、不同话者相同语料内容的音高模式、同一话者相同语料特定方式伪装前后的音高模式, 分析出话者音高模式的稳定性不受发音内容的影响, 在一些伪装干扰下同样如此; 而不同话者发音所产生的音高模式曲线存在诸多差异, 表征出它们本质的不同, 为汉语普通话音高模式在话者鉴别工作中的应用奠定了基础。

The authors have declared that no competing interests exist.

参考文献
[1] 江太辉. 一种改进的语音基频轮廓提取算法[J]. 五邑大学学报(自然科学版), 2002. [本文引用:1]
[2] 焦立为. 汉语方言声调格局的类型学研究[J]. 南开语言学刊, 2007(2). [本文引用:1]
[3] 宋蔚巍, 杜新宇. 三次曲线拟合的一种简便方法[J]. 信息技术, 2008. [本文引用:1]
[4] 冯青青. 哈尔滨方言声调格局的实验研究[J]. 辽宁工程技术大学学报(社会科学版), 2008. [本文引用:1]
[5] 张桂清, 金怡珠, 刘红伟, . 电子伪装语音的变声规律研究[J]. 证据科学, 2010. [本文引用:1]
[6] 刘海蒂. 汉语音高模式的应用研究[J]. 黑龙江科技信息, 2011(10). [本文引用:1]
[7] 李康生, 李敬阳, 熊志强, . 广州话语音声纹鉴定中的量化分析研究[J]. 刑事技术, 2005(6). [本文引用:1]