构音障碍患者病理语音特性分析与识别研究论文

2020年9月2日17:13:30构音障碍患者病理语音特性分析与识别研究论文已关闭评论

构音障碍患者病理语音特性分析与识别研究论文

摘要

我国一直以来非常重视残障人群的医疗及教育问题,近年来许多科研 工作也逐步转向需要帮助的群体,针对构音障碍患者的病理语音研究受到 广泛关注。以往的普通话病理发音研究主要集中于声学分析,结合运动学 角度进行的研究较为少见。本文借助三维电磁发音仪采集构音障碍患者和 正常人的音频数据和三维运动轨迹数据,建立了构音障碍患者和正常人的 发音数据集,在对其声学参数进行全面分析研究的同吋,对同步采集的运 动学信号数据也进行了深入研究,根据舌部、唇部及下颌等主要发音器官 的运动数据,探究构音障碍患者与正常人间的发音特性差异,并根据发音 机理,对构音障碍患者的病理语音进行了识别及评价研究。本文旨在全面 客观的判断和评价构音障碍患者的发音问题,为构音障碍患者的医学病理 研究及康复训练提供有效的技术支持和帮助,本项研究在医疗和教育等领 域具有广阔的应用前景,因此,具有重要理论意义与实用价值。

本文的主要工作和创新性成果如下:

  • 利用三维电磁发音仪采集并建立汉语普通话语音数据集,该数据集 涵盖了汉语发音的声母、韵母、音节和句子,数据包含了构音障碍患者和 正常人的同步声学和运动学特性信息。
  • 提取构音障碍患者和正常人普通话发音的声学特征及运动学特征, 其中声学特征包括传统声学特征和非线性动力学特征等;运动学特征包括 发音器官运动位移、运动速度和时间■空间拟合指数等。通过分析对比构音 障碍患者与正常人的各项声学和运动学特征的差异性,探究构音障碍患者 的发音特性。论文还对不同声学和运动学特征做了病理语音识别仿真实验。
  • 结合人耳听觉特性和非线性能量特性,提出一种基于S变换的耳蜗 滤波倒谱系数(Cochlear Filter Cepstral Coefficients, CFCC)的特征参数提取 方法,该方法不仅结合了傅里叶变换和小波变换的优势,还从仿生学的角 度模拟人耳听觉感知特性。将提取的新特征用于病理语音识别,并与传统 特征进行对比,证明了此特征的有效性。
  • 基于声学发音机理和发音器官生理学特性,提出一种新的声学与运 动学相结合的特征参数(Articulator Onset Time, AOT),即发音运动起始时 间。通过组间实验显著性差异对比,发现AOT参数在构音障碍患者与正常 人间的差异性较大,对病理语音的判断具有良好的区分度。论文对声学与 运动学参数间存在的相关性也进行了进一步的探究。
  • 提出一种将改进的核主成分分析(Kernel Principal Component Analysis, KPCA)与判别典型相关分析(Discriminative Canonical Correlation Analysis, DCCA)相结合的新的融合特征参数算法,该算法能够减少特征参 量之间的相关性,保留特征参数中重要主成分。将得到的融合特征向量用 于病理语音识别,相较于传统组合特征,识别率有较大提高。
  • 建立了一种构音障碍患者发音质量的模糊综合评价模型,该模型对 声学和运动学特征参数建立模糊集,利用F-Score算法确定各参数指标的客 观权重系数,并结合主观的专家评判对病理语音进行综合评价。该方法能 够较好地解决语音模糊的、难以量化的问题,使得对病理语音的综合评价

更为全面客观。

关键词:构音障碍,声学参数特征,运动学参数特征,病理语音识别,

特征融合

ANALYSIS AND RECOGNITION OF PATHOLOGICAL SPEECH IN PATIENTS WITH DYSARTHRIA

ABSTRACT

Medical treatment and education for people with disabilities have always been highly valued in China. In recent years, scientific research has gradually turned to help groups in need, and the study of pathological phonetics in patients with dysarthria has received extensive attention. Previous studies on pathological pronunciation of Mandarin were mainly focused on acoustic analysis, and few studies were carried out in combination with kinematics. In this paper, the audio data and three-dimensional motion track data of patients with dysarthria and normal people were collected with the help of three-dimensional electromagnetic articulator, and the pronunciation data set of patients with dysarthria and normal people was established. The kinematics signal data collected simultaneously with acoustic signal data were analyzed. Aiming at the movement of tongue, lips and jaw of major articulation organs, the differences between articulation of patients with articulation disorder and normal people were explored. Based on the mechanism of articulation, the pathologic speech recognition and evaluation of patients with dysarsaras were studied theoretically and practically. The aim of this paper is to judge and evaluate the pronunciation problems of patients with dysarthria comprehensively and objectively, and to provide effective technical support and help for the medical pathological research and rehabilitation training of patients with dysarthria. This study has broad application prospects in medical and educational fields, so it has important theoretical significance and practical value.

The main work and innovative results of this paper are as follows:

  • The three-dimensional electromagnetic phonograph is used to collect and establish the Chinese Mandarin phonetics data set, which covers the consonants, vowels, syllables and sentences of Chinese pronunciation. The data contains information about synchronous acoustics and kinematics characteristics of patients with dysarthria and normal subjects.
  • The acoustic and kinematic features of Mandarin phonemes from patients with dysarthria and normal subjects were extracted. The acoustic features included traditional acoustic features and nonlinear dynamic features. Kinematics features include movement displacement, velocity and the spatiotemporal index of pronunciation organs. The differences of acoustic and kinematical characteristics between patients with dysarthria and normal subjects were analyzed and compared to explore the pronunciation problems of patients with dysarthria. The simulation experiments of pathological speech recognition are also done for different acoustic and kinematic features.
  • Based on the characteristics of human ear hearing and nonlinear energy, a method for extracting the characteristic parameters of cochlear cepstrum coefficient (Cochlear Filter Cepstral Coefficients, CFCC) based on S-transform is proposed. The method combines not only the advantages of Fourier transform and wavelet transform, but also simulates the auditory perceptual characteristics of human ears from the perspective of bionics. The new feature is applied to pathological speech recognition and compared with the traditional features, the validity of the feature is proved.
  • Based on the sound-sound mechanism and the physiological characteristics of the sound-generating organ, a new characteristic parameter (Articulator Onset Time, AOT), which is a combination of acoustics and kinematics, is proposed, that is the starting time of the pronunciation movement. The results showed that the difference of the AOT parameter in the patients with dysarthria and the normal human was significant, and the judgment of the pathological speech had good regional division. The paper also makes a further study of the correlation between the acoustic and kinematic parameters.
  • A new fusion feature parameter algorithm based on kernel principal component analysis (Kernel Principal Component Analysis, KPCA) and discriminant canonical correlation analysis (Discriminative Canonical Correlation Analysis, DCCA) is proposed. The algorithm can reduce the correlation between the feature parameters and retain the important principal components in the feature parameters. The fusion feature vector is used for pathological speech recognition. Compared with the traditional combination features, the recognition rate is improved greatly.
  • A fuzzy comprehensive evaluation model for articulation quality of patients with dysarthria was established. The fuzzy set of acoustic and kinematic characteristic parameters is established in this model, and the objective weight coefficients of each parameter index are determined by F-Score algorithm. Combined with subjective expert evaluation, the comprehensive evaluation of pathological speech was carried out. This method can solve the problem of fuzzy and difficult to quantify, and make the comprehensive evaluation of pathological speech more comprehensive and objective.

KEY WORDS: Dysarthria, Acoustic feature, Kinematic feature, Pathological speech recognition, Feature fusion

第一章绪论

1.1课题研究背景与意义

语言是人类进行正常生活和社会活动时十分重要的纽带,是人类丰富知识、完成人 际交流和社会交往的重要载体,是人类记录和传承人类文明成果的主要工具。语音是语 言最主要的表达方式,在日常生活中,人们通过接受、发送语音信息来完成消息的接受、 信息的传递。病理语音是由于语言产生过程中,某部分器官病变导致的非正常发音。病 理语音会直接影响人们的有效交流、工作效率和生活质量,因此对病理语音进行系统的 分析研究具有重要的意义。

我国一直非常重视残障人群的医疗康复和教育事业,许多科研工作也转向与残障人 群医疗相结合的研究领域⑴2】。根据中国残疾人事业发展统计公报,2017年中国的听力 残疾人群已达到40.7万[残联发(2018)24号文件];根据党的十七大精神,《中共中央、 国务院关于促进残疾人事业发展的意见》⑶文件中提出了关心残疾人,促进残疾人事业 发展,加强残疾人医疗康复的建议;党的十九大报告提出⑷了百年大计,要以教育为本, 报告围绕“优先发展教育事业讨乍出新的部署,坚持以人民为中心,推动教育事业的发展, 同时提出“要办好特殊教育=努力让每个学生都能公平的享有教育的权利,这是党对特 殊教育事业的关心与承诺。众多政策的颁布,反映了国家对残疾人的政治关怀,进一步 说明残疾人群的康复问题一直是国家社会关注的民生大事。

随着计算机科学、信息通信理论以及信号处理等技术的快速发展,信息处理技术己 渗透到医疗事业的各个领域。医学信号的处理也日益受到研究者们关注,这对病理学研 究起到了推动作用。目前用于病理语音信号研究的技术有X-Ray>超声成像技术、核磁 共振成像技术等⑸6】,但这些方法仍存在一定的局限性。近年来出现了一种可以实时记 录发音器官运动的可视化仪器⑺9]一三维电磁发音仪(3D Electro Magnetic Articulography, EMA),通过EMA可同步记录发音者的语音信息和传感器的运动信息,可以从声学和运 动学两方面分析发音人的发音特点,因此受到研究者的广泛关注。

发音系统中任何一部分的病变都会导致病态嗓音的产生,病理语音的特征参数可以 很好反映发音变化及疾病对正常声音的影响。目前大多数的研究者通过提取声学特征参 数a】,探究其与正常嗓音的差异性。近年来,也有研究者开始从生理结构的角度[I】】,研 究发音器官在发音时的运动情况,从发音机理入手探究病理语音产生的原因。但少有从 声学及运动学两方面进行病理语音发音特性的研究。

病理语音的识别研究可分辨病态嗓音和正常发音的差异,帮助患者更好的交流与生 活,对患者康复训练提供有效的技术帮助M2],因此有较大的社会意义。关于病理语音识 别主要的两个研究方向是:识别模型的选择[⑶和特征的融合优化Ml。不同的识别模型对 不同的特征参数的识别效果也不相同,选取适当的识别模型是病理语音识别研究的重 点。单一特征对嗓音的描述往往是不全面的,而将特征参数简单的组合又会产生冗余信 息,造成组合特征维数高等问题。如何有效的将各类特征参数融合并优化、提高病理语 音的识别率是本文关注的重要问题。

病理语音的评价可以作为一种辅助的医疗诊断手段,为语音质量相关疾病的确诊提 供必要的科学依据。目前病理语音的评价方法没有统一标准化,临床医学上医生为患者 诊断多用主观的评价方法[⑸,但该方法影响因素多、准确性低。近年来,也有研究者根 据客观参数特征科学定量的对语音质量进行评价[⑹,但仍然不够客观全面。如何选取有 效的评价指标、怎样将主观评价和客观评价相结合等问题也是本文的研究课题。

本文利用三维电磁发音仪EMA采集并建立了汉语普通话语音数据集,提取构音障 碍患者和正常人普通话的声学特征及运动学特征,探究病理语音与正常语音发音的声学 特性差异及发音器官运动差异,并从声学和运动学两方面着手对病理语音识别及病理语 音评价模型进行了深入研究。旨在为构音障碍患者的医学诊断和康复治疗提供可靠的临 床依据与技术支持,达到矫正各种语言缺陷、提高患者语言表达能力的目的。本课题在 医疗和教育等领域具有广阔的应用前景,因此具有重要的理论意义与实用价值。

1.2构音障碍患者发音国内外研究现状

1.2.1国外研究现状

国外对构音障碍人群的发音研究大多是通过分析声学信号特征参数进行的。例如 Jafari等对比了聋哑患者与正常人的波斯语元音发音,研究发现元音/a/、/i/的第一共 振峰和元音如、/o/的第二共振峰存在显著性差异;Nicolaidis等阴在研究听力损伤患者 的发音时,对共振峰和发音时长在重读和非重读的情况进行了分析统计研究;Tseng等 [19]研究了聋哑患者普通话元音/a/、/i/、/u/的第一共振峰和第二共振峰的特性,还进一步 探究了共振峰元音空间与可懂度的联系;Baudonck等在研究佩戴助听器和植入人工 耳蜗的患者时发现,相对与正常人,听障患者的共振峰数据有较高的标准差;Bunta等 0]探究了辅音/ p, b, t, d, k, g/的发音嗓音起始时间(Voice Onset Time, VOT)在正常人和植 入人工耳蜗患者之间的差异;Wieland等辺】更是进一步探究了婴幼儿早期康复训练对佩 戴助听器和植入人工耳蜗的患者元音发音特征的影响。

近年来,针对病理发音的运动学特征参数研究也越来越受到人们的关注。Leung等 [23]探究了在有或没有听觉反馈的两种情况下,舌位高低对元音发音的影响;Milenkovic 等[24】研究了发音器官(包括上下唇、舌、腭和咽部)的运动情况与声学参数共振峰的联 系;Jaeger等㈤探究了重型颅脑损伤患者在发音伽/、/ta/和/ka/时,嘴唇、舌尖和舌背 在运动幅度、速度和发音时长方面的运动异常模式。

德国生产的用于研究发音器官发音运动的新型仪器-三维电磁发音仪EMA血]近年 来受到研究者们的青睐。它是通过有线传感器连接到不同的发音器官来同时收集微小的 运动数据和声学数据,具有高时空分辨率0】。目前国外基于EMA仪器的构音障碍发音 运动数据研究多运用于帕金森病凶、脑瘫[29〕、肌萎缩性脊髓侧索硬化症网、口痴卩1]等, 但针对聋哑患者发音情况的研究颇少。

在病理语音识别方面,Amara等阳利用MEEI病理数据库,对语音数据提取了 MFCC特征,并使用支持向量机进行识别实验;Moberly等昭研究发现在词语的识别率 方面,进行人工耳蜗手术的患者要明显低于正常人;Peng等[河研究了关于聋哑患者在 声学特征参数方面的语音识别率;Donaldson等[洌针对元音发音对聋哑患者进行了语音 识别研究;Wang等31从舌部和唇部运动的位移特征,对元音、单词、词组和句子进行 了基于支持向量机的识别实验。

在病理语音评价方面,Novotny等卩刀从声学得到角度对帕金森患者进行了病理发音 的评估;Murdoch等閃从运动学的角度对儿童、青少年和成人进行了发音评价。目前, 将声学特征参数结合运动特征参数进行病理语音识别和评价的研究较少。

1.2.2国内研究现状

我国对病理语音的研究起步较晚,目前国内大部分的病理语音发音研究多集中在声 学参数方面,且语料较为单一,少有较为全面的病理语音特征分析、语音识别及评价等 方面的研究。

国内对于病理语音声学特征方面的研究主要有:杭丽滨㈤]通过对第一共振峰和第二 共振峰频率特征参数的分析,绘制声位图,对听力障碍儿童复合元音发音状况进行分析; 李宁等[40]探究了正常儿童与听障儿童在韵母发音同和其相关鼻韵母的第一共振峰参数 的差异性;张满彩⑷]、许远静[42]和王厚英均提出用非线性动力学特征参数研究病理 语音的发音特性,并说明病理语音信号具有非线性、混沌及非平稳等特性。

目前国内针对病理语音运动学参数的系统分析研究颇少,Manwa等阿比较了正常 人与语言障碍患者的粤语发音时,6个辅音的舌部运动的差异,结果显示言语障碍患者 舌部的速度、加速度、持续时间和舌位均有不同程度的下降;胡方购收集并研究了正常 被试发音时的舌体发音位移信息;黄典[购通过EMA收集数据并对生理发音模型进行了 相关研究。

在病理语音识别方面,周强等⑷]为了提高病态嗓音的识别率,提出了一种基于差异 度的多参数识别方法,并探究声学参数之间的关联性,根据差异度对参数分配新的权重, 最后构成新的特征向量;常静雅等[徊提出了一种病理嗓音小波域建模分析方法,通过非 线性对特征降维,从而提高了病理嗓音的识别率。目前国内的病理语音识别已有一些成 果,但对于识别模型的选择,病理特征提取及融合优化方面的研究还未成体系。

在病理语音评价方面,陈琦⑷]通过分析听障儿童运动障碍的唇部特征,探究了听 障儿童唇部运动功能的主观评估标准;肖彦等[呵对齿龈塞音在腭裂语音中的声门塞音代 偿现象进行了声学评价,实现了音节的声门塞音客观判定。虽然目前国内已经有一些关 于病理语音的评价研究,但系统的将多特征参数作为评价指标并结合主客观的病理语音 评价体系还较少。

1.3病理语音研究面临的问题

从以上国内外对病理语音的研究现状来看,国外的研究范围及内容在一定程度上比 国内研究更深入和全面,这给国内的研究人员提供了广阔的研究视野、多样的研究思路。 目前研究听障患者发音面临的一些难题如下所述:

  • 数据采集困难。构音障碍患者大多知识文化水平略低,正常交流存在障碍,导 致采集实验较难进行;
  • 结合声学和运动学的病理研究主要由国外的研究者来完成,国内的研究成果较 少,特别是结合构音障碍患者的发音机理研究几乎空白;
  • 仪器设备稀缺。用于研究声学和运动学的精密仪器价格昂贵,操作复杂,能完 成研究实验的科研机构较少;
  • 不同的语种发音特征与规则不同,目前国内研究大多针对正常人群的汉语普通 话研究,语言障碍患者的研究较为稀少;
  • 病理语言识别研究多针对语音声学特征的研究,对于发音器官特别的舌头、嘴 唇等运动学特征参数分析较少,而包含越多类别的特征参数信息,可以有效的提高识别 率;
  • 目前,针对病理语音的综合评价模型较少,主要都是通过人工主观评判发音质 量,缺少客观评价。

鉴于以上问题,本文采用三维电磁发音仪采集构音障碍患者和正常人的声学和运动 学数据进行分析比较,探究构音障碍患者与正常人间的发音差异;并根据发音机理,对 构音障碍患者的病理语音进行识别及评价研究,旨在更为全面客观的判断和评价构音障 碍患者的发音问题,弥补病理语音发音基础研究的不足。

1.4主要研究内容和技术路线

本论文借助三维电磁发音仪EMAAG501采集构音障碍患者和正常人的发音数据, 从声学和运动学特征两个角度对构音障碍患者的发音进行系统的基础分析与研究,探究 声学与运动学在发音机理间的联系,实现多特征融合的病理语音识别,建立构音障碍患 者发音质量的模糊综合评价模型。具体的研究内容主要将围绕以下几个方面进行:

  • 利用三维电磁发音仪采集并建立汉语普通话数据集。该数据集包含正常人和构 音障碍患者的声学与运动学特性信息,丰富了中文病理语音数据的多样性。
  • 从声学特征角度分析及研究病理语音。对语音信号的基频、短时平均振幅、嗓 音起始时间VOT, Mel频率倒谱系数、元音发音空间VSA (Vowel Space Area)>共振峰 以及非线性动力学参数特征进行分析对比,探究构音障碍患者与正常人间的发音差异。 针对病理语音多是非平稳且非线性的信号,提出一种基于S变换的CFCC声学特征参数, 取得较好的识别效果。
  • 从运动学特征角度分析及研究病理语音。通过对舌部、唇部及下颌发音器官的 发音最大位移、最大速度、最大加速度与减速度、发音时长、时间-空间拟合指数STI (The Spatiotemporal Index)特征参数的分析对比,从生理角度分析发音器官的运动差异。提出 一种新的声学与运动学相结合的特征参数AOT,即发音运动起始时间,并进一步探究 了声学与运动学参数间存在的相关性。
  • 研究不同语音特征以及不同分类算法等对病理语音识别结果的影响,确定相对 适合病理语音识别应用的分类算法。利用多特征融合优化的方法,构建病理语音识别系 统,最终提高病理语音的识别率。
  • 建立对构音障碍患者发音质量的综合评价模型。对声学和运动学特征参数建立 模糊集,对发音者的语音质量进行综合评价。

本文的技术路线如图1-1所示。

本文的主要创新点有:

  • 提岀一种新的耳蜗滤波倒谱系数特征,即基于S变换的CFCC特征参数。该特 征提取方法是将病理语音信号通过S变换,再将频谱信息通过耳蜗滤波器组和毛细胞窗 口等一系列变换,融入Teager能量算子,最终得到新的特征参数。该特征参数表征了人 耳听觉感知特性,适用于病理语音这类非平稳、非线性信号的研究分析,实验结果表明 该特征在病理语音识别中表现出较好的识别率。
  • 提出一种新的声学与运动学相结合的特征参数,即发音运动起始时间AOT。通 过组间对比实验表明,AOT参数在构音障碍患者和正常人之间存在显著性差异,对病 理语音的判断具有良好的区分度。
  • 提出一种新的融合特征参数算法,该算法采用改进的核主成分分析KPCA提取 特征,再利用判别典型相关性分析DCCA将声学和运动学特征进行融合优化。该方法能 够减少特征参量之间的相关性,保留特征参数中重要主成分,经过融合优化的特征,有 效地提升了病理语音的识别率。
  • 建立了一种对构音障碍患者发音质量的模糊综合评价模型。该模型对声学和运 动学特征参数建立模糊集,利用F-Score算法确定各参数指标的客观权重系数,并结合 主观的专家评判对病理语音进行综合评价,该方法能够较好地解决语音模糊的、难以量 化的问题,使得对病理语音的综合评价更为全面客观。

图1-1本文技术路线框图

Figure 1-1 Technical flow chart of this paper

1.5论文结构框架安排

论文一共分为八章,其主要内容如下:

第一章绪论,该章详细论述了本课题的研究背景与意义,阐述了构音障碍患者病 理语音发音研究的国内外动态,以及针对构音障碍患者病理语音研究的主要困难。在上 述基础上,提出了本文的主要研究内容。

第二章发音机理及病理语音的概述。该章论述了语言的感知和产生的过程,介绍 了构音障碍成因、表现及恢复语言能力的方法,分析对比了现有的病理语音数据库。

第三章病理语音数据的采集。该章详细论述了数据采集仪器三维电磁发音仪EMA 的组成及基本原理,论述了 EMA仪器的优势及相关科研应用,详细阐述了实验的语料、 被试、环境设置和数据采集具体步骤流程,介绍了数据格式和预处理过程,最后对病理 语音数据进行了筛选。

第四章 对构音障碍患者与正常人普通话发音的声学特征参数进行了对比分析和研 究。其中包括传统声学、非线性动力学以及元音空间共振峰特征参数的研究。提出了一 种基于S变换的CFCC声学特征参数提取方法,实验表明该参数对病理语音这类非线性 信号有较高的识别率。

第五章对构音障碍患者与正常人普通话发音的运动学特征参数进行了对比分析和 研究。其中包括各发音器官的最大位移、、最大速度、最大加速度与减速度以及时间-空 间拟合指数STI特征参数的研究。提出了一种将声学与运动学结合的特征参数AOT, 分析了 AOT在构音障碍患者与正常人之间的差异,验证了新参数对病理语音的区分能 力。

第六章分析研究病理语音识别系统,探究了病理语音在不同识别模型下的识别结 果,提出一种将改进的核主成分分析(KPCA)和判别典型相关性分析(DCCA)相结合的特 征融合方法,较传统组合方法相比,融合特征的系统识别性能更高。

第七章构建了一种病理语音模糊综合评估模型。采用分层分析的方法,将声学特 征参数和运动学特征参数建立指标因素集。提出利用F-Score算法确定各个参数指标的 客观权重,结合专家评价的主观权重,建立模糊矩阵,最终建立了一种模糊病理语音综 合评价模型。

第八章总结与展望,对本文所做的研究工作及取得的研究成果进行了总结,对下 一步的研究工作进行展望。

第二章语音发音机理及病理语音概述

2.1引言

语言是人类在交流过程中最基本的、最便利的工具。语音的产生是通过大脑、神经 系统、呼吸系统和发音器官相互配合最终发出声音。发音障碍是由于各种因素导致发声 系统无法正常工作引起的。当发音器官发生病变或疾病,就不能正常发音而发出异常声 音,此时产生的语音为病理语音。语音的产生是一个要求多个系统相互配的复杂生理过 程,了解发音机理可对探究病理语音的形成提供理论基础。唇部、舌部和下颌是发音过 程中的重要发音器官,分析其运动差异性也是病理语音研究的重要内容。

本章从语音的发音机理入手,论述了语音产生的过程及发音机理,介绍了形成构音 障碍的原因以及改善语言障碍的方法,并对目前常用的病理语音库进行介绍。

2.2语音的产生与发音机理

语音的产生过程是一个十分复杂的发声系统共同作用的结果。首先大脑下达指令, 然后通过神经系统把指令传递到呼吸系统,产生气流呼出来带动声带振动从而发出声 音,声音又经过舌部、唇部、下颌、齿、咽喉、上下腭等发音器官的相互配合和协调运 动最终发出语音。

语音的感知过程是信号以声波的形式从说话者传递给接收者Pi】。接收者听到声音信 号后,耳鼓膜压强变化并在内耳基底膜上进行声学信号的处理,随后将初步处理的感知 信号通过神经传递给大脑听觉中枢,刺激大脑将此信息转换成言语。语音的产生和感知 过程如图2-1所示。

大脑产生想法I 神经信号           I 气流通过 I耳鼓膜压强变化I            大脑翻译

词、短语、句子I控制肌肉收缩I 口唇压强变化I 神经信号                   I所接收的语音信号

I协调各个发音器官I语音信号传播I 刺激大脑 I转换成言语

说话者                                         接收者

图2-1语音的产生和感知

Figure 2-1 Speech perception and transmission

语音通过呼吸系统、发声系统和构音系统的相互协调配合产生的,整个系统可以近 似的比喻成声源滤波器模型,其中呼吸系统的肺和气管可以看做动力源;发声系统的喉 部的声带振动以及声道的变形产生阻碍构成声源;构音系统的发音器官如舌部、唇部、 下颌、软腭、口腔与鼻腔构成滤波器。其中发音器官的作用尤为重要,肌肉的压缩和发 音器官的运动位置会导致共鸣腔的改变从而改变发音。图2-2为语音发音系统及发音器 官示意图。

图2-2语音发音系统及发音器官示意图

Figure 2-2 Speech pronunciation system and pronunciation organ

当患者的喉部、口腔、鼻腔或者发音器官发生病变时会导致发声和构音系统产生变 化,此时的病态语音与正常发音不同。在发音器官当中,舌部和唇部的作用尤为重要, 其中舌部在说话中的运动十分复杂,舌运动正常进行与否和正常发音有直接的关系。因 此探究发音器官的运动情况与病态发音的潜在关系,可以为病理语音的深入研究奠定基 础。

除此之外,听觉系统在语音发音的过程中也起到关键的作用。如果听觉系统中的任 何部分出现了病变,都会影响到整个发音体系。也就是说,听觉系统的不完整也会导致 病态语音的形成。

2.3构音障碍病理语音简述

构音是指舌部、唇部等器官通过摩擦、肌肉收缩和阻断气流等运动而产生各种发音 的机能。构音障碍(dysarthria)是指与发音有关的神经或肌肉病变、发音器官运动不协调 等导致的语言障碍[河。发音的任何环节出现异常,例如呼吸系统、共鸣腔以及大脑到肌 肉任何部位的变化,都会导致语言的变化。构音障碍可分为功能性构音异常和器质性构 音异常两大类,功能性构音异常是由于构音方法不准确造成的语音缺陷,其生理结构和 构音器官完全正常,功能性构音异常的患者,只要通过语音康复治疗,协调各个发音器 官,用正确的发音方法进行发音训练,就可以矫正错误语音;器质性构音异常是由于生 理结构异常造成的语言缺陷,由于生理问题导致构音障碍的患者必须通过手术治疗或通 过仪器辅助使其具备正常生理结构应有的功能,例如唇裂、腭裂以及听力障碍患者,最 终通过语音康复训练和配套的治疗达到痊愈。

构音障碍导致的发音不清形成的原因主要有以下几个方面:

  • 功能性构音异常。不存在生理缺陷的功能性异常,这种构音障碍患者大部分都 伴随着幼儿时期语言发育迟缓的共同特点,与同龄儿童相比只能掌握较少的词汇。
  • 发音器官畸形。喉部畸形的患者主要是口腔内发音器官畸形导致语言障碍,这 类患者的特点是可以发音,但语言模糊不易听懂。腭裂患者可以通过手术修补使其腭咽 闭合功能恢复正常,但由于长时间错误的发音习惯造成的语言障碍,需要通过专业的语 言矫正训练才可以康复。
  • 中枢神经系统疾病。主要有帕金森病、肌萎缩侧索硬化症、脑瘫、肌无力等病 症。运动神经元损害的常有吞咽困难的表现,严重者可有呼吸困难。这类患者的特点是 发音缓慢且不清晰。
  • 听力障碍。听力障碍患者是由于听觉通路不完整导致的语言障碍。由于没有正 确的语音信号输入,患者无法协调发音器官正常配合来模仿学习正确的发音。这类患者 发音器官正常,因此可通过人工耳蜗手术以及助听器帮助恢复语言能力。

构音障碍患者的主要症状表现为发音不准,韵律异常等言语听觉特性的变化。口鼻 腔的共鸣异常会表现为鼻音过重,语言清晰度低,发音器官的异常运动也会导致构音异 常。

改善构音障碍患者语言能力有以下几种方法[呵:

  • 训练舌唇运动。通过医疗检查可以发现,多数构音障碍患者都有不良的舌部和 唇部运动,导致发音错误。对舌部的抬起、前伸、后缩、卷曲等运动进行肌肉强度训练 有助于语言能力康复。
  • 发音、辨音训练。可以先训练患者无声的构音运动,这要求舌部、唇部等发音 器官相互配合,运动方式正确,最后再引导轻微发声。发音练习过程中要提升患者分辨 发音的能力。
  • 视觉反馈。充分利用其视觉反馈能力,学习了解发音的部位和语音产生机理, 并指出其发音器官的主要问题所在,确定准确的发音部位,进行有效的辅助治疗。

综上所述,病理语音的分析研究不仅要从声学角度对比其与正常发音的差异性,还 要从发音机理出发探究发音器官的运动情况,最终帮助构音障碍患者进行有效的康复训 练,纠正错误发首。

2.4病理语音数据库介绍

目前,为研究者所广为使用的数据库有麻省眼耳中心开发的MEEI语音数据库(Voice Disorders Database Version 1.03.),此数据库包含了正常人以及各类发音障碍患者的语音 数据;加拿大多伦多大学联合Holland-BlooTview儿童康复医院共同开发的TORGO脑瘫 病人数据库[河,该数据库实验被试类型为脑瘫或肌萎缩性脊髓侧索硬化症,数据是由 EMA采集的声学数据以及同步的运动数据;Parkinson Data Set和Nemours Database也 是有关构音障碍患者的病理数据库,被试为42位帕金森病患者,该数据库为病理语音 识别的研究者们提供了较为良好的实验基础;SVD语料[刈为最新的免费公开的病理语 料库,该语料为萨尔州大学计算语言学和语音学实验室采集的,包括2000个人的声音 录音,其中包括71种不同原因导致的语音障碍的疾病,包括器质性的和功能性的(如 喉炎、帕金森病等)疾病。表2-1列出了上述常用病理语音数据库的具体信息。

表2-1常用病理语音数据库信息表

Table 2-1 Pathological speech database information table

一个高质量且内容丰富真实的语音数据库是进行病理语音研究的重要前提,可为病 理嗓音与正常发音的参数对比研究提供可靠的原始数据,也可为病理语音的识别以及评 价研究提供训练集。目前病理语音数据库语料多为英语,相比较而言,国内关于中文的 病理语音研究相对较薄弱。首先,国内对构音障碍患者的研究正处于起步阶段,大多数 科研机构未配备专业的采集仪器,医院有较多的病患但缺乏专业数据采集和处理的技术 支持。其次,被试难招募,愿意参与科学研究性质数据采集的患者数量很少,即数据样 本量较小,部分采集者也不愿将数据公开。另外,构音障碍患者大多语言水平较低,采 集数据的同时需配备康复师进行指导,为获得理想语音信号需要反复录制,采集效率低。 这些原因导致了病理语音数据的缺乏,因此,建立一个汉语普通话的病理语音数据集对 于国内的病理语音研究是意义重大的。

2.5本章小结

本章着重阐述了语音的产生和发音机理,详细分析了构音障碍病理语音形成原因、 表现症状以及改善构音障碍患者语言能力的方法,论文还给出了国内外常用病理语音数 据库的具体信息及适用范围,并分析了国内相关病理语音数据缺乏的原因以及建立一个 汉语普通话的病理语音数据集对于国内的病理语音研究的重大意义。

第三章病理语音数据的采集

3.1引言

建立病理语音数据集是对病理语音特征分析、识别以及评价的基础。病理语音数据 集不仅能够为病理模型和特征参数分析提供统计数据支持,也可以为病理语音识别和评 价提供训练集和测试语料。而数据的质量高低可直接影响语音识别和评价的结果,因此 建立一个真实、丰富、优质的数据集是进行病理语音研究的重要环节。语音数据集的建 立必须遵循真实、交互、连续和丰富这四个原则[旳。

传统的病理语音数据大多只包含了声学特征参数,很少涉及到生理运动方面的信 息,高质量的语音采集通常需要密闭无噪的实验室和高精密的仪器。语料的选择方面也 较为单一,大多只包含常用元音。被试的选取方面,由于患者的难招募,多数研究也只 是针对病人个例分析。

目前我国关于病理语音的研究开展时间较短,汉语普通话的病理语音数据十分缺 乏。本章利用高时空分辨率的三维电磁发音仪EMA,在专业语音实验室采集构音障碍 患者和正常人的发音数据,其中包含了声学和运动学的特征参数,语料包含了汉语普通 话的声母、韵母、常用音节和句子,召集了构音障碍患者和正常人各20位参与数据的 录制。本文采集的病理语音数据为病理嗓音的发音机理、特征参数、病理语音识别、评 价等方面的研究奠定了基础。

3.2实验仪器EMA介绍

本文使用的三维电磁发音仪EMA是由德国制造商Carstens Medizinelektronik GmbH 公司生产制造,型号为AG501,该设备为解决语音信号研究中的运动学问题提供了可能, 能够通过电脑实时进行测量并记录数据,以传感器运动轨迹的方式进行分析,是用于同 时记录声音和运动数据的精密仪器Ml。该仪器声学信号的采样频率为22kHz,运动学信 号的采样频率为400Hz[57]o

  • EMA的组成及基本原理

EMAAG501包含以下组成部分:

  • E-Box,如图3-l(a)所示,它包含了 AG501的主要电子设备,将外围设备包括信 号发射装置、信号接收装置、同步装置Sybox、译码器、动力装置与控制服务器的网络 连接。
  • 信号发射器Transmitterholder,如图3-l(b)所示,它位于受试者头部上方并定义了 测量区域,有9个发射机线圈产生交变磁场。
  • 信号接收器Receiver,如图3-l(c)所示,,可同步接收多达24个传感器的感应电 流信号,并将这些信号传递到E-Box进行进一步的处理。
  • 支架Stando,如图3-l(d)所示,支架上部包含仪器的校准单元Circalo
  • 同步装置Sybox,如图3-l(e)所示,该装置提供同步声学数据和运动学数据。
  • 底座Standur,如图3-l(f)所示。

⑺ 传感器Sensors HQ220-L120-B,如图3-1仗)所示,即粘在发音器官上的电磁感 应接收线圈。

(8)控制服务器Control server,由戴尔笔记本"Latitude E6520”和Linux操作系统 "CentOS"作为控制服务器运行。它通过标准网络电缆连接到E-Box,通过usb电缆连接 到 Alesis iO2 EXPRESS 声卡。EMA的传感器设置图3-2 EMA三维空间坐标系

EMA AG501的工作原理是基于电磁感应现象收集并记录数据的。信号发射器产生 一个磁场强度为1.25piT到16.66(iT交变电磁场,频率范围是7.5到13.75kHz,对人体健 康无损害。磁场中的各个质点存在一个相应的理论磁场强度和交变电压幅度值,将传感 器置于该电磁场中,当传感器位置发生变化时会产生感应电流和感应电压,通过交变电 压的幅值计算测试点在磁场中的空间位置和偏移角度。Carstens公司将EMA AG501系 统自定义了一个三维空间的坐标轴,以被试者在磁场中的方向为参考,如图3-2所示, 将X轴定义为水平方向(horizontal), Y轴定义为前后方向(lateral), Z轴定义为垂直方向 (vertical) □系统还定义了两个偏移角度,水平偏移角度。(azimuth)和垂直偏移角度 0(inclination)o有线传感器在磁场中将信号传回,转化成三维坐标(兀、y、z),便可以 直接从电脑上观测实时的位移信号,也可记录数据用于发音器官的运动分析。

Figure 3-2 Three dimensional space coordinate system of EMA

EMA配套的传感器大小为2.2mmx2.4mmx0.18mm,每个传感器的重量为2.47go将 传感器用无毒害的牙科粘合剂(PeriAcryl ® 90, Glustitch, Delta, BC, Canada)粘在发音器 官上用于数据采集。

图3-3传感器设置图

Figure 3-3 Sensor setting diagram

本实验一共设置11个传感器,其中8个传感器用于有效的数据收集,另3个为参 考传感器,具体设置如图3-3所示。舌部设置3个传感器:舌尖(T1)、舌中(T2)和 舌后(T3)。每隔20nmi均匀的粘于舌头中轴线上(如图3-4所示);唇部设置4个传 感器:上唇(L1)、下唇(L2)、左唇(L3)、右唇(L4);下颌(J)设置1个传感 器;位于鼻梁(H)、左耳后硬骨(E1)和右耳后硬骨(E2)的3个传感器为参考传感 器,用于系统头部校准,以消除发声音过程中由于头部运动产生的误差。图3-4为舌部 传感器粘贴示意图。

图3-4舌部传感器粘贴示意图

Figure 3-4 Tongue sensor paste schematic diagram

  • EMA的优势及相关应用

语音信号分析是研究发音的主要方法,但发音器官的运动也是研究语言生成的重要 依据[涸,运动学的参数可以间接反映出声学参数的质量。目前,用于语音信号运动学数 据采集的有效方法有很多种,例如:X-射线(X-ray)[59],超声波(USG^。】,核磁共振成像 (MRI)[6i】等,但这些方法存在一些缺点,比如辐射对人体健康的损害、非实时采集和低 精度等。EMA是近年来新兴的一种用于研究口腔内外发音器官运动情况的仪器,是一 种研究复杂细微动作的高精度设备,常用于采集记录发音器官(如舌部,唇部等)复杂 多变的发音运动,其微型传感器有着较高的时间和空间分辨率,可以实时收集声学和运 动学数据,而且对人体健康无损害,因此是目前采集发音运动学数据的理想方法。

Kuruvilla et al⑶]利用EMA探究了肌萎缩侧索硬化患者发音运动控制与语言损伤程 度联系的紧密程度;Justine et汨血〕通过EMA评估了外伤性脑损伤患者发音时发音器官 舌部运动的速度和准确度。

目前,国内尚未有利用EMA对构音障碍患者发音的研究,若将声学与运动学结合 分析探究构音障碍患者的汉语发音,这对我国语音病理学研究、发音机理研究及声学参 数与运动学参数间的关系研究都具有重要的参考价值。

3.3实验数据的采集

3.3.1实验语料

在发音测试语料选择方面,由于普通话单元音和辅音声母是汉语中使用量最多、最 基本的音素,研究人员经常将其作为地方方言於65]或病理语音[66皿的测试语料。

本数据集的测试材料是从汉语普通话中选取,如表3-1所示,其中韵母包括6个单 元音韵母和6个鼻韵母;声母包括3个双唇音、1个唇齿音、3个舌尖前音、4个舌尖中 音、4个舌尖后音、3个舌面音和3个舌根音;音节包括16个由声母/b/组合而成的音节、 23个由声母/d/组合而成的音节、19个由声母伦/与不同韵母组成的音节和24个随机音节; 句子选自汉语普通话水平测试指导用书中的一段朗读段落,将该段落分成6句话分别进 行采集。被试要求以自然平稳的响度和语速朗读,声调统一为一声,每个音读三遍,测 试材料出现的顺序为随机的。

3.3.2被试人员

本项研究参与的被试为40名母语为中文的构音障碍患者(病理组)和正常人(正 常组)。其中病理组(Hearing ImpaiTed, HI)由20名来自太原聋人学校的构音障碍学生 组成(10名男生和10名女生,平均年龄为16岁,范围14-18岁),均有佩戴助听器及接 受5年以上语言康复训练经历,除听力受损外,无口腔运动障碍或其它畸形,具体信息 如表3-2所示,其中的部分信息由太原聋人学校提供。正常组(Normal Hearing, NH)由 20名来自太原理工大学的学生组成(10名男生和10名女生,平均年龄18.5岁,范围 18-19岁),普通话水平均为二级甲等及以上,均无任何发音和听力损伤及精神病史。

dian> diao> die、ding、diu、dong> dou> du、duan> dui>

dun、 duo

音节                         、亠卄                                                                                           82

与/g/组合而成的音节 ga> gai> gan> gang、gao> ge> gei> gen> geng> gong> gou>

gu、gua> guai> guan> guang> gui> gun、guo

其他                          nan> nang> nen> neng> nin> ning>

fan> fang、fen、feng

pa、fa、ta> la> ka> ji、qi、xi、za> ca> sa> zha> cha> sha

  • 大雪整整下了一夜。今天早晨,天放晴了。
  • 太阳出来了,推开门一看,哺!好大的雪啊!
  • 山川、河流、树木、房屋,全都罩上了一层层厚厚的雪。

句子 选自一段话                       (4)万里江山,变成了粉妆玉砌的世界。                             6

  • 落光了叶子的柳树上挂满了毛茸茸亮晶晶的银条儿。
  • 而那些冬夏常青的松树和柏树上,则挂满了蓬松松沉甸

甸的雪球儿。

表3-2构音障碍学生基本信息表

Table 3-2 Descriptive characteristics of the students with dysarthria

3.3.3实验环境

本实验环境要求在一个密闭且安静的实验室里,背景噪声不高于50 dBo运动学数 据通过传感器采集,声学数据通过配套的电容麦克风(the t. bone EM9600, Musikhaus Thomann e.K., Burgebrach, Germany)采集,将麦克风置于被试者口部前方15cm左右, 调整舒适坐姿。实验语料随机的投影在屏幕上,屏幕与被试者保持一个舒适的阅读距离。 此外,被试要求身上不得佩戴金属类饰品,以免影响数据的准确性。

3.3.4数据采集步骤流程

数据采集流程图如图3-5所示。

不通过                               不通过                                       不通过

图3-5数据采集流程图

Figure 3-5 Flow chart of data collection

具体步骤如下:

  1. EMA仪器预热

使用仪器前,一般提前15分钟将仪器打开进行预热。EMA是精度非常高的仪器, 对温度敏感,较高或较低的温度都会导致误差增大,一般室温在23。左右为宜。

  1. 传感器校准

首先安装校准柱,如图3-6Q)所示,将其放入仪器圆形孔中,然后转动圆盘的白色 转轮,直到稳定的固定到仪器上,注意不要拧太紧。其次安装传感器,将两个螺母松开, 放入传感器如图3-6(b)所示,共有4个槽口,每个槽口有4个通道。确保每个传感器放 置的位置对应于它所连接的通道。拧紧槽上的螺丝,直到传感器保持稳定不抖动。注意 不要对传感器施加过多压力。然后将传感器插入对应通道如图3-6(c)所示。最后启动 EMAcs5cal传感器校准程序,若校准不通过,则要查看传感器放置的是否合适,调整后 继续校准直至校准通过。

  1. 通道测试

启动cs5diag通道校准程序,可验证可用磁盘空间,检测各部件连接情况,检测通 过方可进行下一步实验。

(a)                                                    (b)                                                                  (c)

图3-6传感器校准部件

Figure 3-6 Sensor calibration unit

  1. 咬合板(Biteplate)平面校准

将三个传感器粘于如图3-7所示的咬合校准板上。传感器被放置在前门齿和后臼齿 的中点,以指示相对于参考传感器的矢状中部和上颌咬合平面。利用三个传感器构成的

Figure 3-7 Biteplate

  1. 通过配套软件Cs5recorder记录数据

图3-8为配套Cs5recorder软件记录数据界面,选择收集数据的传感器,将其通道打 开,点击“start sweep讨安钮开始记录,指示条为绿色时表示程序一切正常,红色表示存 在故障,应停止记录调试程序。EMA将同时记录声学数据和运动学数据,传感器位置 可通过界面实时展示,如图3-8下半部,并记录运动轨迹。

Server ON no sweep selected 25.9 FPS

图3-8 Cs5recorder软件记录数据界面

Figure 3-8 Cs5recorder software record data interface

3.4实验数据格式及预处理

3.4.1实验数据格式

通过EMA采集的数据生成的原始系统文件结构如图3-9所示,其中“amp酹子文件 是一直存在的,它包含扫频文件(*.amp)和与其相对应的纯文本文件(*.ini), “wav”子文件 只有在声音有效的情况下创建,它包含音频文件(*.wav)。

current

current v | 5 items, Free space: 19.9 GB

图3-9原始系统文件结构图

Figure 3-9 Original system file structure diagram

一、运动学数据类型

(1)    感应电压幅度文件(格式.amps),包含记录的样本数据,每个通道最多可以记 录9个值。

(2)    原始运动数据文件(格式.rawpos),二进制文件,用于计算每个样本的位置和角 度,包含各传感器的三维位置数据(x、y、z)、方向数据(0和0)、RMS误差值和一个附 加值。

(3)    头部校准后的运动数据文件(格式.pos),与rawpos文件相似,坐标系与参考传 感器保持相同的位置和旋转角度,以消除头部运动产生的误差。表3-3为pos文件的数 据格式。

表3-3 pos文件的数据格式

Table 3-3 The data format of the pos file

二、声学数据类型

(1)音频文件(格式.wav), 16kHz、16bit的单声道音频文件,与pos文件成对岀现。

(2)音频与运动数据同步的文件(格式.wavall),经过同步盒与发音动作数据同步, 最终生成的同步文件。

3.4.2实验数据预处理

实验直接采集的原始运动数据不能直接用于特征参数的提取分析,要经过一系列的 数据预处理才能得到精确的发音动作数据。EMA仪器采集到的原始数据是电磁场中感 应电压的幅值,要通过配套系统中专用的软件转化成随时间变化的三维坐标系位置数 据。由于说话人在说话过程中头部会产生相应的晃动,因此采集到的运动数据是包含发 音器官运动和头部运动的混合动作数据,通过头部校准去除头部动作是十分必要的。图 3-10为数据预处理流程图。

图3-10数据预处理流程图

Figure 3-10 Data pre-processing flow chart

从图3-10可知,首先要将采集到的原始电压幅值数据转变为三维空间数据。EMA 仪器采集到的原始数据是实验传感器实时采集到的交变电压幅值(amps文件),在Linux 环境中利用仪器专用软件cs5calpos程序将交变电压值转化为三维空间坐标轴的角度和 位置数据(rawpos文件),由于三维空间数据是根据交变电压通过E-Box内电路板转化而 来的,因此理论值与实际值存在RMS误差值,RMS误差值越小数据的可靠性越高。

其次要进行头部数据校准。说话人在说话中会产生头部的转动,而这部分位移与发 音器官的相对位移无关。通过头部校准去除头部的运动,以获得单纯的发音动作数据。 前文3.2.2节中提到,鼻梁(H)、左耳后硬骨(E1)和右耳后硬骨(E2)的3个传感 器为头部校准的参考传感器。cs5normpos是一个对rawpos文件进行头部校正的程序。 首先,程序从给定数量的扫描文件样本中生成一个引用对象,该扫描文件包含头部校正 期间用作目标的静态配置,随后执行头部校正。头部校准确定了每一帧数据的一组旋转 和平移参数,这组旋转平移参数构成了一个4X4的齐次坐标矩阵,将该变换矩阵应用 于给定数据集所有传感器的头部校正。

最后将二进制数据(pos文件)转换为ASCII码。EMA专用软件cs5bin2ascii是一个 用于创建位置数据文本文件(txt文件)的程序,生成的文件可通过文本编辑器或excel等 电子表格程序查看及编辑。采集的实验数据经过以上步骤的预处理,原始的数据变为高 精度的三维空间运动学数据。

3.5病理语音数据的有效性筛选

3.5.1实验人员初步筛选

在实验采集过程中,实验人员在记录数据时进行初步筛选。标准有以下3点:

(1)     仪器设备正常,声学和运动学软件界面记录顺畅,无异常;

(2)     被试没有明显的晃动、喘气、吞咽口水的动作;

(3)     发音可辨,没有发音错误。

若不满足以上3点中的任意一点,则要求被试重新采集该语料。

3.5.2人工测评二次筛选

数据采集完毕后,选用人工测评的方法对病理语音数据进行二次筛选,邀请3名语 言专家对所有发音语料进行测评。测评包含正常组20位被试和病理组20位被试的所有 发音。

对于正常组被试,要求3位专家在同一环境中,听取全部语料并判断语音的清晰度。 评分标准为:无法判断所发的语料,发音不正确(1分);发音正确但发音较差(2分); 发音可懂,无杂音(3分);正确可分辨的发音,无杂音(4分);正确且标准的发音, 无杂音(5分)。对于病理组被试,同样要求3位专家在同一环境中,听取全部语料并判 断语音的清晰度。评分标准为:发出声音,但发音不正确(1分);发音不易听懂,但区 别其他发音(2分);发音可被听懂,半数以上聆听者能接受(3分);能发出接近正确 的语音(4分);能发出正确的语音(5分)。令3名语言专家评测,若单项打分结果差 距大于3分,则重新发音重新评测。每个语料3位专家的评分结果分别为%0和丫,则 语音清晰度=(理+ 0 +刃/3,评分大于3的语音保留,小于3的舍弃。最终的筛选结果 如图3-4所示。筛选前的样本总个数是由正常组和病理组被试各20人(详见3.3.2节) 每个样本录制三次(详见3.3.1节)以及各语料类型个数(详见表3-1)决定的。

表3-4病理语音数据的二次筛选结果

Table 3-4 Results of secondary screening of pathological phonetics

从表3-4可以看出,病理组的不可用语料较多,这是由于患者在采集时的不稳定因 素影响较多以及患者本身发音的可变性较大所导致的。经过实验人员的初步筛选和人工 测评二次筛选,使得筛选后的语音材料清晰可用,从而确保了病理语音数据的有效性。

3.6本章小结

本章详细描述了病理语音数据的采集过程。首先对实验用仪器EMA的原理及采集 数据时传感器设置进行了详细介绍,利用该仪器同步收集声学和运动学数据;其次着重 描述了实验数据的采集过程及实验环境,中文语料的选取包含了 12个韵母、21个声母、 82个音节和6个句子,被试由正常组的20位说话人(10男10女)和病理组的20位构音 障碍患者(10男10女)组成;论文还给出了数据采集完毕后数据的存储格式和预处理过 程;最后对病理语音数据进行初步筛选和人工测评二次筛选,保证了数据的有效性。经 过筛选后的语音数据包含正常语音的韵母、声母、音节和句子各702、1228、4875和356 例,病理语音的韵母、声母、音节和句子各689、1184、4373和321例。在本文后续实 验中,选取本次采集的病理语音数据作为语料来源。

第四章声学特征参数的分析研究

4.1引言

声学特征参数的提取和分析是解读语音信息的重要研究方法。在病理语音的研究 中,特征参数的提取是一个非常关键的环节,可直接影响病理语音的差异性分析、识别 率以及评估结果。为了探讨病理语音信号的声学特性,本章从传统声学特征参数、非线 性动力学特征参数等方面对构音障碍患者和正常人的语音信号进行了深入的分析对比 研究,传统声学特征参数以韵律特征和Mel频率倒谱系数作为基础研究,采用希尔伯特 -黄变换(Hilbert-Huang Transformation, HHT)提取了传统声学重要特征参数一共振峰, 并分析比较了构音障碍患者和正常人元音空间的差异;非线性动力学特征参数从关联维 数、Hurst参数、最大Lyapunov指数等方面研究病理语音的非线性特性,并进行了实验 仿真。

传统的声学特征参数多适用于线性语音信号,对于有扰动的病态语音信号处理并不 理想;非线性动力学特征〔69]虽然对处理混沌的非线性信号较有优势,但没有结合生理学 结构来模拟人耳听觉特性。针对以上问题,本文提出一种基于S变换的耳蜗倒谱系数 CFCC 的特征参数(S-tTansforniation Cochlear Filter Cepstral Coefficients, SCFCC)提取 方法,该方法不仅结合了傅里叶变换和小波变换的优势,还从仿生学的角度模拟人耳听 觉感知特性,较传统声学特征相比,病理语音的识别率有明显提高(具体识别结果见第 六章表6-7) o

4.2传统声学特征参数

传统声学语音信号特征参数包含韵律特征和谱特征,其中韵律特征是指超音段特 征,它主要体现了语音信号强度和语调的变化,如基频、短时平均能量、过零率等;谱 特征是对语音信号进行某种变换后产生的相应特征参数,如频域的线性预测系数 [70](Linear Predictor Coefficients, LPC)、Mel 频率倒谱系数[71](Mel Frequency Cepstrum Coefficients, MFCC)和线性预测倒谱系数[72](Linear Prediction Cepstrum Coefficients, LPCC)等。目前声学语音信号特征参数已广泛用于病理语音的分析和识别,并取得了一
定的研究成果⑺]。

本小节着重研究了基频、短时平均幅度、嗓音起始时间VOT以及Mel频率倒谱系 数等传统声学特征参数,并针对正常组和病理组的上述参数进行了差异性分析。

4.2.1语音信号预处理

提取声学特征参数之前,首先要对音频数据进行预处理,具体操作流程如图4-1所 示:

语音信号预处理步骤如下:

  • 滤波处理:滤除信号中的高频成分,防止混叠干扰。
  • 预加重:目的是为了消除唇部的辐射影响,提高信号中高频的分辨特性。具体 操作是将音频信号通过一阶FIR高通滤波器,其传递函数如式1所示,其中预加重系 数Q取值为0.97 o

= l-az                                                          (4.1)

  • 分帧加窗:语音信号在短时间内(一般为10-30ms)具有稳定性,通过分帧可将语 音分成多帧来进行处理。实现语音信号的分帧一般采用可移动的有限长度窗口进行加权 的方法,本文实验中,采用汉明窗进行加窗处理,能较好的反映短时信号的频率。将帧 长设置为256,帧移设置成128,窗函数如式2所示:
  • 端点检测:通常采用的方法是基于过零率和能量的双门限法[%],检测语音的起

始端点和结束端点,其中一个门限较低,对信号的变化比较敏感;另一个门限则比较高, 其数值较大。端点检测降低了存储或传输的数据量,提高信号处理效率。

4.2.2韵律特征

本文提取基频、短时平均幅度、嗓音起始时间VOT作为韵律特征对病理语音进行

  • 基频

基音是指发浊音时声带振动所引起的周期性,而基频(Fundamental Frequency)代表 了发音者在单位时间内声带振动的次数[沟。基频的大小与发音者发音器官的生理结构因 素有着必然的联系,反应发音者声道和声门的特性。基频除了与说话人声带张力、长度、 厚度有关外,还与粘膜的粘液特性有关,并且受到声门压力差效应的影响。基频不仅反 映了语音音调的大小,也包含着发音质量优劣的信息。当发声器官产生病变时,其基频 也会发生变化。因此,基频被广泛用于语音检测、识别、以及病理语音的诊断恥]。

对于青少年发育时期的构音障碍患者,其基音频率是会随着发音器官的成熟度而改 变,一般来说,构音障碍患者的基音频率相比正常说话人偏高。提取基频的方法通常有 倒谱法、自相关法、平均幅度差法等,本文采用平均幅度差法对病理语音进行基频的提 取。

平均幅度差法主要研究信号自身同步性,原理与自相关法计算基频作用类似,设有 离散信号兀⑺),利用差值计算嗓音信号的短时平均幅度差,计算公式如下:

该方法的优势是当提取变化较为平稳的病理语音信号的基频时,可靠性高,计算量 少。

  • 短时平均幅度

将时间作为自变量的时域分析是语音分析最直接的方法,短时能量是常见的信号时 域分析方法,但短时能量存在缺点,它对高电平非常敏感,计算公式求出的是信号的平 方,会对信号产生放大作用。故引入短时平均幅度的概念,设第〃帧语音信号为£(%), 它的短时振幅计算公式为:

其中代表第〃帧的短时幅度平均值,表征了每一帧语音信号能量值。短时平均 幅度可以用来区分清音段和浊音段,反映说话人的语音质量,可用于病理语音的分析研 究。

  • 嗓音起始时间VOT

嗓音起始时间VOT的定义是指塞音闭音的释放后,后继元音嗓音开始振动之间的 时间间隔。在国内语音信号的研究中,此参数多用于区分塞音和浊塞音。而在国外,VOT
是研究说话人发音可懂度和语言运动协调能力的一个重要指标⑴],也是评价不同类型发 音缺陷、构音障碍的常用方法[旳。VOT也可以用来区分普通话、土耳其语、德语及美 国口音的英语[79]。然而,对于VOT在正常人与构音障碍患者之间的差异至今所知甚少。 Lane等人阙研究发现,有五分之四的聋人患者相较于正常人VOT值有所增加。 Waldstein】8】]通过对七名母语为英语的重度聋人进行测试,他们发现聋人说话人的元音的 VOT值较短。Tartter等人阿研究发现一名6岁的耳聋少年在接受人工耳蜗电刺激后, 并没有改变VOT值。

嗓音起始时间作为经典的声学参数,用来反映发音的协调程度。提取方法是截取塞 音闭音的释放作为起始点,后继元音嗓音开始振动作为结束点,单位为毫秒(ms)。图4-2 显示了以其中一位测试者辅音发音/d/为例提取说话人VOT的方法,以时间轴为横坐标, 从辅音除阻时刻到声带开始发音的时间间隔为VOT。由于VOT的值受说话语速的影响, 被试要求以正常的说话速率完成目标音节。所有VOT值由同一位实验者按照相同的方 法和标准进行提取。

图4-2 VOT提取方法

Figure 4-2 VOT extraction method

4.2.3 Mel频率倒谱系数

Mel频率倒谱系数[83]MFCC主要是根据人耳听觉特性,进行Mel尺度上的频域分析, 从而构造的声学特性参数。由于人耳接收到的声音频率和人发出的声音频率是非线性的 关系〔沏,因此用梅尔频率尺度

其中/为频率,单位为Hz。对应关系图如下图所示。

Mel频率倒谱系数提取步骤[旳如下:

  • 对构音障碍患者和正常人的语音信号进行预加重处理,将其通过高通滤波器, 公式如式1。
  • 对处理后的信号进行分帧和加窗。帧长设定为256,帧移为128,汉明窗函数为 公式2。
  • 对上步得到的信号进行快速傅里叶变化得到每帧语音信号对应的频谱,设输入 信号为兀⑺),N为傅里叶的变换级数取值为256,则语音信号的DFT为:

N-1

Xa(k) = ^x(n)e-j2MN

n=0

  • 用Mel尺度上线性分布的三角滤波器组对能量谱进行滤波,滤波器频率响应表

达式如下所示:             M

公式(4.9沖厶指Mel频率倒谱系数的阶数,本文取乙= 12,通过上述计算,得到构 音障碍患者和正常人的MFCC特征参数。

4.2.4实验结果与分析

表4-1为本文提取的正常组和病理组(说明见3.3.2)元音发音基频均值。

表4-1正常组和病理组的基频均值(Hz)

Table 4-1 The fundamental of pathological group and normal group (Hz)

从上表的基频信息可以看岀,病理组的所有元音发音的基频均值都高于正常组。其 中差值最大的是元音/i/,差值最小的是元音/e/,也就是说构音障碍患者在元音/i/的发音 质量较好,元音/e/的发音质量较差。从基频数据推测,病理组对元音发音掌握的程度由 好到差的排序依次为/e/、/u/、/o/、/a/、/U/、/i/o

表4-2为正常组和病例组元音发音的短时平均幅度均值。

表4-2正常组和病理组的元音短时平均幅度均值

Table 4-2 Short time amplitude averages of pathological group and normal group

从上表的短时平均幅度信息来看,病理组的大部分元音发音的短时平均幅度均值高 于正常组。其中元音发音/e/和/ii/与正常人十分接近,掌握的较好;元音发音/i/的差值较 大,说明病理组对其掌握的不好。从短时平均幅度数据推测,病理组对元音发音掌握的 程度由好到差的排序依次为/ii/、/e/、lai/o/、/u/、/i/。

表4-3列出了正常组和病理组发音/pa/、/ta/、/ka/的VOT平均值和标准偏差。

表4-3正常组和病理组VOT的比较结果(ms)

Table 4-3 Comparison of VOT between pathological group and normal group (ms)

对于发音/pa/,我们发现病理组(HI二11.5-208.5ms, mean=72.9ms±60.2)的VOT值低 于正常组(NH二80.1-158.3ms, mean=107.3ms±19.7),两组之间不存在显著性差异。对于 发音/ta/,病理组(HI二22.9-128.9ms, mean=73.1ms±37.4)的 VOT值明显低于正常组 (NH二65.8-155.5ms, mean=103.2ms±23.2),两组间存在显著性差异(F2; 22 二 5.586, p < 0.05)o 对于发音/ka/,病理组(HI二32.9-190.4ms, mean=73.1ms±37.4)的 VOT 值低于正常 组(NH二63.2-164.9ms, mean=87.6ms±44.8),两组间不存在显著性差异。*表示显著性p值v 0.05

4.3元音发音空间VSA参数特征

4.3.1共振峰Fl、F2参数特征

共振峰是声学信号分析中最基本的特征参数,它是由声门振动产生的气流与声道内 壁发生共振时产生的共振频率,是在频谱中能量相对集中的一些区域。共振峰不仅可以 反映声音质量的好坏,还能间接的体现发音器官的生理特性。元音的第一共振峰F1和 第二共振峰F2与发音器官发音时的位置有着非常密切的关系,对语言可懂度有直接影 响,因此对构音障碍患者的共振峰研究是必不可少的。

4.3.2基于HHT的共振峰提取

希尔伯特-黄变换HHT算法是由Huan护6,阿等人提出的一种具有自适应性的非平稳 非线性信号分析方法。HHT方法的核心包含两部分:第一部分是经验模态分解(Empirical Mode Decomposition, EMD);第二部分是希尔伯特谱分析。前者所述的经验模态分解具 有自适应带通滤波特性[附,其基础原理是从被分析的信号中分解成不同时间尺度的固有 本征模态函数(Intrinsic Mode Function, IMF),后者将所得到的IMF分量进行Hilbert变 换得到一个复解析函数,并推导出时域信号的瞬时频率、瞬时相位和瞬时能量。HHT
不仅适用于稳定信号的处理,也适用于对非平稳信号的研究,对于病理语音这类典型的 非稳态信号,采用希尔伯特-黄变换分析非常适用。

第一部分EMD阶段:

通过EMD得到的每个IMF首先要满足两个基本条件:一是在整个数据序列中,数 据的过零点个数和极值点个数交替出现且数目相等或者最多相差一个。二是连接各个局 部极大值点和局部最小值点,所形成的上下两条包络线的均值在任意数据点上必须为 零。

经验模态分解EMD的具体步骤如下:

(1)提取原始信号序列兀⑴所有的局部极大值点和局部极小值点,利用三次样条函 数进行插值处理,拟合得到上包络线和下包络线,平均值记为"⑴,与原始序列的差 值分量为仏⑴:

(4.10)

若用⑴满足IMF的两个基本条件,则将仏⑴记为兀⑴的第一个分量,记为q =人。若仏⑴ 不满足IMF的两个基本条件,则重复以上操作£次,直到符合条件为止,即

⑵ 将得到的第一个IMF分量q从原始信号序列分离,得到一个新序列人⑴: 重复上述步骤依次得到若干个IMF分量q(r),C2(t)...q(t),直到不能再提取出固有模态函 数。

  • 直到迭代过程停止,原始信号序列兀⑴就被分解成〃个IMF分量与一个余项的

循环次数的停止准则,Huang等人提岀利用柯西收敛来约束,要求筛选过程中两个连续 结果有不同的标准差SDk作为停止筛选的阈值:                                         丿

Re表示取实部,由上式可知瞬时频率、瞬时振幅和时间可构成一个三个维度的分布图,

称为HHT时频图。信号的Hilbert边际谱是将时频图对时间进行积分得到:

Hilbert边际谱反映了在每个时间段内频率对应的振幅累积以及能量分布情况。

当采用HHT方法分析病理语音信号的共振峰频率时,要先对第一共振峰和第二共 振峰频率分量进行分离,即经过带通滤波器的滤波,从而避免在EMD分解阶段造成相 互之间的干扰,根据能量最大的原则确定表示共振峰分量的一阶IMF[89],得到共振峰频 率的表达式:

传统的信号分析方法FFT中没有实现瞬时参数的提取,这不利于非平稳信号的分 析,而在病理语音的发声信号是非线性的,声门激励与声道响应之间存在相互耦合作用, 用HHT方法处理非平稳、非线性的病理语音信号有较明显的优势,能够自适应信号的 频率变化。

  • VSA兀首■发首■空间

元音发音空间(Vowel Space Area, VSA)是一种广泛应用于临床研究声学测量方法, 常用于间接评估元音发音质量。元音发音空间VSA是指元音在第一共振峰F1和第二共 振峰F2构造的x-y平面中形成的区域,F1和F2之间的关系被认为是元音语音识别的重 要声学线索。以三个元音/a/、/i/和/u/为例,VSA计算公式如式4.23所示,单位用Hz?来 表亦:

Z 二x(F2“ -F2J + F1, x(F2° -F2J + F1 (F2, -F2j|

4.3.4实验结果与分析

首先使用Praat (version 6.0.18, Holund)软件提取正常组和病理组的F1和F2特征, 随后采用数理统计软件SSPS21.0,分别对提取的共振峰数据进行独立样本t检验,当P 值<0.05时具有统计学意义,存在显著性差异。正常组和病理组元音发音共振峰F1和 F2的均值和标准差对比结果如表4-4所示。

表4-4两组被试者普通话元音共振峰F1和F2的均值与标准差比较(Hz)

Table 4-4 Comparison of mean and standard deviation of Fl and F2 in Mandarin vowels in two groups

*表示显著性卩值<0.05; **表示显著性p值vO.Ol; ***表示显著性卩值v 0.001 o

对于元音发音/a/,我们发现病理组的F1略高于正常组(NH二650-996HZ , mean=858Hz+97;      HI=785-1138Hz, mean=908Hz+105),但两组之间并不存在显著性差

异。对于F2来说,病理组明显高于正常组,且两组间存在显著性差异(NH二1102-1425HZ, mean=1273Hz±117; HI二 1247-1703Hz, mean=1411Hz±138)o

对于元音发音/i/,病理组的Fl明显高于正常组(NH二315-429Hz, mean=367Hz±43, HI二353-739Hz, mean=516Hz±141),且存在显著性差异。病理组的F2也明显低于正常 组(NH二2106-2680Hz, mean=2434Hz±220; HI二 1209-2021Hz, mean二 1751Hz±293),且存 在显著性差异。

对于元音发音/u/,病理组的F1高于正常组(NH=384-472Hz, mean=435Hz±26; HI二392-670Hz, mean=496Hz±95),但两组之间并不存在显著性差异。对于F2来说,病 理组明显高于正常组,且两组间存在显著性差异(NH二705-993Hz, mean=895Hz±96; HI=861-1311Hz, mean=1091Hz±139)o

对于元音发音/o/,病理组的F1高于正常组(NH=468-705Hz, mean=535Hz±66; HI二466-923Hz, mean=614Hz±130),但两组之间并不存在显著性差异。对于F2来说, 病理组明显高于正常组,且两组间存在显著性差异(NH二775-1067Hz, mean=912Hz+84; HI二力8-1443Hz, mean=1107Hz±218)o

对于元音发音/e/,病理组的Fl明显高于正常组(NH二469-672Hz, mean=536Hz±72; HI二525-843Hz, mean二6力Hz±107),且存在显著性差异。病理组的F2也明显高于正常 组(NH二 1036-1314Hz, mean=1166Hz±97; HI=1070-1587Hz, mean=1298Hz±170),且存 在显著性差异。

对于元音发音/ii/,病理组的F1高于正常组(NH=318-462Hz, mean=367Hz±41 ; HI二306-562Hz, mean=404Hz±86),但两组之间并不存在显著性差异。对于F2来说,病 理组明显低于正常组,且两组间存在显著性差异(NH=1618-2447Hz, mean=1967Hz±241; HI二 1032-2120Hz, mean=1483Hz±337)o

对于第一共振峰,病理组在所有元音/a/、/i/、/u/、/o/、/e/、/ii/发音时Fl的值均高 于正常组,其中病理组和正常组只有在元音/i/和/e/有显著性差异,具有统计学意义(Pv 0.05)o对于第二共振峰,病理组在元音/a/、/u/、/o/、/e/发音时F2的值高于正常组,在 元音/i/和/ii/发音时F2的值低于正常组,其中病理组和正常组在所有元音/a/、/i/、/u/、/o/、 /e/、/ii/发音时存在显著性差异,具有统计学意义(P<0.05)o说明F2特征参数在病理语音 的分析中表现出良好的区分度。此外,病理组在所有元音共振峰的标准差明显大于正常
组,说明病理组发音的波动性较大。

正常组和病理组的元音发音空间示意图如图4-6所示。图中圆形数据点代表正常组 NH(蓝色)和病理组HI(红色)在元音/a/、/i/和/u/± Fl和F2的均值,将三点连线构成元音 空间三角形。每个离散数据点代表每个发音者在三个元音上Fl、F2发音的平均值。

图4-6正常组(蓝色三角形)和病理组(红色三角形)的元音空间示意图

Figure 4-6 Vowel space area (VSA) of HI (red triangle) and NH speakers (blue triangle)

由公式4.23可计算出正常组的元音空间大小为VSA二33835H/,病理组的元音空 间大小为V SA二156520 Hz?,与正常对照组相比,病理组的VSA范围有明显的缩小。病 理组元音空间的缩小可通过图4-6中VSA三角形区域体现。此外,病理组的数据点在 图中分布的较为离散,标准差较大。

4.4非线性动力学特征参数

线性系统分析语音信号存在一定的局限性,较难准确地描述发音机理,如不对称性、 非平稳性、混沌性等。Teager等人提出了语音产生的非线性模型㈤】,随后研究者们通过 声学和空气动力学理论证明,声带的振动及语音发音是复杂的非线性过程。非线性动力 学主要是从定性和定量的角度研究某个系统或者时间序列内部的运动状态和变化规律, 非线性动态系统对混沌行为和微小的扰动具有高度的敏感性,当正常语音产生异常时, 可能会导致语音产生过程中岀现混沌现象。研究表明病理语音信号具有复杂无秩序、混
沌性等非线性特性,因此运用动力学非线性特征参数能够有效描述及分析病理语音特 性。

基于上述理论基础,本小节分别从关联维数、Hurst参数和最大Lyapunov指数三种 参数来研究病理语音的非线性动力学特征,并对正常组和病理组语音信号的上述三种参 数进行了分析对比的实验,论证了用非线性动力学特征参数区分病理语音的有效性。

4.4.1相空间重构

相空间重构Bl是病理语音非线性分析以及研究混沌特性时间序列特征的基础。在早 期研究中,Tokens等人[92】将相空间重构的理论应用到动力学中,也就是说系统在任意时 刻的状态可以用相空间中对应的点来表示。相空间重构的基本原理是系统中任何一个独 立变量的演化过程是由其他分量的相互作用决定的,因而每个变量都能够描述系统中的 变化。相空间重构的方法一般采用Packard[93]提出的时间延时理论,Takens在此基础上 提出了嵌入定理,当m>2D + l时,即延迟坐标的嵌入维数大于动力系统的维数,就可 以还原系统的特性,其中加为嵌入维数,。为原系统的吸引子维数。

给定病理语音信号兀⑺)={x(l),x(2),...,x(A^)}为一维的时间序歹!], N为时间序列的总 点数,则延迟矢量可由延迟坐标相空间重构法得:

4.4.2关联维数

关联维数是用来表征语音动力学模型系统在高维空间下的自身相似结构,是非线性 动力学中的一种特征参数,在混沌学理论中,关联维数是定量刻画混沌吸引子的重要指 标,常用作定量描述非线性系统的分析研究。本文使用Grassberger和PTOcaccia】%】两人 提岀的一种经典G-P算法实现正常组和病理组语音信号关联维数的计算和仿真。其计算 原理如下:

设厂是〃维相空间重构后的临界距离最大值,找出在高维空间中临界距离小于厂的
所有相点,得到关联积分函数C(r,m):

2           MM

弘心时詔(426) 总相点数M = N, m,N,r的定义同4.4.1小节,0是Heaviside函数, ftz)=|0 Z"0o随着加的增加,相空间重构的效果也会增加。

(z)     [1     Z>0

由关联积分可得到关联积分曲线In C(r,m) Tdn厂。当厂足够小时,关联函数逼近下 式:

In C(r,m) = lnC-D(m)lnr                                                   (4.27)

关联维数D(m)可通过关联积分函数计算得到,满足对数-线性关系:

  • Hurst 参数

基于多尺度分析的Hurst指标是描述分数布朗运动的单一尺度参数,用于刻画时间 序列前后的离散时刻的平稳性和相互依赖作用,广泛用于混沌理论的分析中。早在1951 年水文学家Hurst在研究尼罗河水流量及贮存能力的自然现象时,提出了重标极差法(R/S method)[95]计算Hurst参数。Hurst参数描述了一个数据集的自相关性,Hurst参数越大 则表明自相关程度和长程依赖性越大oHurst指数在0和0.5之间说明时间序列无自相关 性,等于0.5时说明时间序列具有随机性。

通过计算Hurst参数可以衡量语音信号序列长相关性[96】,本文计算Hurst参数选择了 R/S分析法,便于更好地评估病理语音的变异情况。计算原理如下:

首先定义第i个数据点时的平均误差为:

  • 最大 Lyapunov 指数

混沌系统的重要特征是对初值的敏感特性,当初始条件产生微小的扰动和改变的时 候,系统的状态也会随之产生极大的变化。最大Lyapunov指数(Largest Lyapunov Exponent, LLE)就是定量的描述在非线性混沌系统中的初值敏感性,即相空间的相邻轨 道发散或收敛的程度,是描述非线性动力学系统稳定性的重要参数之一。表4-5为系统 状态与最大Lyapunov指数之间的关系,当最大Lyapunov指数2大于零且越大时,对初 始条件敏感,相空间轨道发散的速率越大,说明系统的混沌程度越大。当最大Lyapunov 指数2接近或等于零时,系统处于稳定状态。当最大Lyapunov指数2小于零时,相空 间轨道收缩,说明不存在混沌现象。

通过图中比较两组发音情况可知,当嵌入维数加不断增加时,关联维数也逐步趋于 缓慢,直到稳定不变。正常组关联维数较快的趋于稳定,说明正常语音信号的非线性混 沌特性较弱,而病理组的病理语音信号在单位时间内表现的非线性混沌特性较为强烈。 因此,我们针对相同发音对正常语音和病理语音的关联维数进行差异性分析研究。

图4-10是正常组和病理组对应的Hurst指数。从图中可以看岀,病理语音的Hurst 值明显异于正常语音,说明Hurst参数可以有效的反映病理语音信号的特性,可以作为 区分病理语音的非线性特征。

图4-10正常组和病理组的Hurst参数

Figure 4-10 Hurst parameters in the normal and pathological groups

图4-11是最大Lyapunov指数随时间的变化曲线。从图中可以看岀,在混沌运动状 态下随着时间的推移,Lyapunov指数逐渐趋于平稳,最终收敛于某个定值。而病理语音 信号较正常组更具有非线性混沌特征。

4.5 一种新的耳蜗滤波倒谱系数特征本文第六章6.4节对上述基频、短时平均振幅、VOT、MFCC、第一共振峰F1、第

二共振峰F2、关联维数、Hurst参数、最大Lyapunov指数等不同声学特征参数进行了病 理语音识别实验,识别结果见表6-7,为了进一步提高病理语音识别率,本文提出一种 新的耳蜗滤波倒谱系数特征参数,具体方法如下。

目前最广泛有效的语音特征是基于人耳听觉特性提出的,这是因为人耳具有良好的 抗噪能力,致使越来越多的研究者研究人耳听觉特征,并建立更符合人耳听觉特性的语 音特征参数模型网。针对单一特征不足以表征语音信号的完整特性,文献[99】将相位信息 和耳蜗倒谱系数CFCC特征融合应用到说话人辨认系统;文献a。】将CFCC及其衍生特 征与MFCC特征进行多特征融合来检测自然语音和合成语音,但并未考虑到能量信息; 文献[IE将Teager能量算子倒谱参数和MFCC进行特征融合并分别应用于应激语音情感 识别和自动方言识别,以此来验证能量特征的有效性。

鉴于病理语音的非平稳非线性特性,本章提出一种基于S变换的耳蜗滤波倒谱系数 特征参数的提取方法,其过程是将语音信号通过S变换从时域转化到频域,再进行CFCC 特征提取,然后融入Teager能量算子,最终得到新的特征参数。其中S变换结合了短时 傅里叶变换和小波变换的优势,非常适合非平稳信号特征量的分析与处理,CFCC特征 参数表征了人耳听觉感知特性,Teager能量算子又结合了语音瞬时能量特性。实验证明 该方法提取的新特征较好的反映了病理语音的声学特性,较传统声学特征相比,病理语 音识别率有明显提高(识别结果见第六章表6-7)o

4.5.1 S变换的基本原理

S变换[102]是1996年由Stockwell在分析地震波时提出的一种线性时频可逆的分析方 法,是在短时傅里叶变换(Short-time Fourier Transfom, STFT)和小波变换的基础上,结 合两者优点发展演变而来。S变换采用高斯窗函数,且宽度与频率的倒数成正比,改善 了短时傅里叶变换窗宽固定的缺陷。S变换还可以看做小波变换上的相位矫正a?】,使 得原始信号与各频率分量的相位谱有联系,频率随时频分辨率变化而改变,可无损的还 原信号。因此,S变换是时频分析领域的重要分析方法。S变换适用于非平稳信号特征 量的研究分析,而病理语音信号是非平稳且时变的信号,因此,S变换应用于病理语音 研究能够得到更加准确的时频结构。

信号x(Z)的连续S变换定义为:

其中/'为频率,1■为时间轴f上的位置参数,e为高斯窗口,公式如下:

(4.43)

这使得S变换窗口形状可随频率的变化而改变,在低频段部分和高频段部分均可获 得高时间分辨率[1曲。因此,S变换可以被看作一种频变的STFT。

同时,对于信号兀⑴的S变换也可以通过小波变化得到:

S(T,f) = ei2^fiW^d)

其中为信号兀⑴的小波变换,d=l/\f\, g 门是母小波函数,必须满足具有零 均值的条件,其具体表达式为:

(4.45)

式中产2"是小波变换中不具备的相位因子,可看出$变化解决了小波变化的局域化问 题。

连续的病理语音信号兀⑴的离散形式为,其离散傅里叶变换为

其中N为总采样点数,卩为采样周期,令r^jTJ^n/NT,可得到序列兀也卩]的离散

S变换为:

换的计算步骤如下:

  • 计算病理语音信号无比卩]N点的快速傅里叶变化得到X

17i2m

⑵ 计算频率点n的高斯窗函数快速傅里叶变换G(m,n) = e

⑷ 给定频率点〃,按频率采样点计算x go,〃);

⑸ 计算X煮尹G(mM的快速傅里叶反变换得到S变换谱S jT,

(6)重复以上步骤得到完整的S变换谱。

通过变换的复时频矩阵S jT,—,行为频率,列为时间。将此矩阵各个元素求模 L NT]

运算后得到S矩阵的模矩阵|s|,求其能量谱,行向量为某频率点上的幅值随时间的变化,

列向量为某频率点上的幅值随频率的变化。

4.5.2耳蜗倒谱系数CFCC

2009年,贝尔实验室的Peter Li博士首次提出听觉变换[伺的概念,Qi L等基于 听觉变换,提取了一种基于耳蜗滤波倒谱系数特征(Cochlear Filter Cepstral Coefficients, CFCC),并将其应用于不匹配条件下的鲁棒说话人辨识系统。耳蜗倒谱系数特征参数是 基于人耳听觉过程模型提取的,在噪声环境下识别性能优于传统的MFCC特征参数。传 统的MFCC性能随着信噪比的降低会大幅度地下降[1°刀,从而导致语音识别系统的稳定 性较差。CFCC的提取过程首先通过耳蜗滤波fl(Cochlear Filter Bank)模拟了内、中、外 耳的生理过程,相当于耳蜗基底膜的结构作用[1网。再通过可变长度的毛细胞窗函数(Hair Cell),通过非线性响度变换(Loudness Nonlinearity)将能量信息转化为感知响度,最后进 行离散余弦变换(Discrete Cosine Transform, DCT)消除相关性,得到语音耳蜗倒谱系数。

听觉变换是将耳蜗滤波函数作为小波基函数,将时域信号变换到频域信号。耳蜗基 底膜上得到冲击响应函数肖⑴要满足以下条件[1°冬

式子中比,0>0,理,0决定了 0(。频域的宽度和形状,影响降噪效果。多次实验证明, 取经验值a = 3 , 0 = 0.2时效果最好。u = (0为单位阶跃函数,0是初始相位,b为随时 间可变的实数,Q为尺度变量,通常Q可由滤波器组的中心频率办和最低中心频率九决 定:

a=^                                                                  (4.54)

fc

毛细胞窗口:

毛细胞函数将听觉转换后的语音信号转变为人脑听觉神经信号,转换过程为:

h(a,b) = \T(a,b)Y                                                            (4.55)

1 I +d —1

S(i,j) = -工h(i,b),l = hL,2L,..Ri,j                                     (4.56)

d b=i

其中〃 = max{3.5rz.,20m5'} , d是第i频带毛细胞函数的窗长,q是第i个滤波器中心频带 的周期,£=l//c,厶为分帧的帧移,一般取L = d/2, j是窗的个数。

非线性响度变换:

毛细胞函数窗口输出通过立方根响度函数来模拟其非线性变换过程,将能量值变为 感知响度:

y(iJ) = [S(i.j)j                                                      (4.57)

离散余弦变换:

最后利用离散余弦变换DCT去除相关性,得到CFCC特征参数:

CFCC(i, n) = 72/M gy(i, m) cos『鷺心)0<m<M                                         (4.58)

4.5.3 Teager能量算子特征参数

Teager能量算子⑴切(Teager Energy Operators, TEO)是由Kaiser提出的一种有效的非 线性差分算子,具有跟踪信号非线性瞬时能量、计算量小、效率高等优势。将Teager能 量算子应用到病理语音信号处理中,可反映病变嗓音的非平稳特征。

对于一离散时间信号x(n) , Teager能量算子定义ME为:

= x(n)2 -x(n-\-I)x(n-T)                                      (4.59)

其中肖[兀⑺)]是TEO的输出,x(n)是离散信号在n点时的采样值。

对于一连续时间信号兀⑴,TEO可以定义为:

= x(n)2             (t)                                       (4.60)

Teager能量算子不仅能够反映语音信号能量变化、抑制零均值噪声的影响,还能达 到语音增强的目的〔IQ。对于语音信号,病态嗓音对语音的影响是非平稳非线性的,将 Teager能量算子引入到病理语音的特征提取中,能够更好的反映不同程度的病态嗓音对 语音信号的影响,最终提高语音识别系统的性能。

4.5.4新特征参数SCFCC的提取

本文提出了一种基于S变换的SCFCC特征参数,其提取原理是将语音信号输入通 过S变换从时域转化到频域,再将频谱信息通过耳蜗滤波器组和毛细胞窗口等一系列变 换得到语音耳蜗倒谱系数CFCC,然后融入Teager能量算子,最终得到SCFCC新特征 参数。SCFCC特征参数提取过程如图4-12所示:

图4-12 SCFCC特征提取框图

Figure 4-12 Flow chart of SCFCC feature extraction

S变换后的信号在时域和频域的特征更加明显,能够很好的反映非平稳信号的局部 频谱信息,特别在时频分析时具有高时间复杂度。SCFCC特征参数的提取算法如下:

  • 对输入的病理语音信号兀⑴进行分帧处理;
  • 分帧后的时间序列按式(4.47)进行S变换,得到变换矩阵;
  • 对变换矩阵的各个元素进行求模运算,得到S矩阵的模矩阵|S|,对频谱求平方 得到对应的能量谱;
  • 通过耳蜗滤波器组,模拟耳蜗基底膜的作用按式(4.53)对信号进行处理;
  • 经过毛细胞窗函数处理转换为人脑可分析的信号:

在这里,经多次实验得〃 =4时效果最佳,即每个滤波器提取4个DCT分量,将18 个通道的DCT分量特征进行统一的幅度归一化处理,最终得到SCFCC的特征维数为 4x18=72 维。

4.5.5实验结果与分析

本实验选取正常人和构音障碍患者同一发音的原始语音信号,如图4-13所示;信 号经S变换后通过耳蜗滤波器组,第一道滤波器的冲击响应和耳蜗滤波器的频率响应如 图4-14所示;接着经过毛细胞窗函数处理后,得到三维的时频图如图4-15所示,不同 的滤波器所选用的窗长度不同,实现高、低频信号对时间分辨率的不同需求;随后经过 响度函数来模拟其非线性变换过程,如图4-16所示;最终获得的新特征参数SCFCC参 数所绘制的三维图如图4-17所示。

图4-16经过非线性响度变换后的三维时频图从以上图中可以直观的看出正常组和病理组对于相同发音的特征参数有明显的差 异。由此可见,在S变换的基础上提取CFCC特征参数,加入反映信号能量变化的Teager 能量算子,得到的特征参数既表征了人耳听觉感知特性,又结合了语音瞬时能量的特性, 还在一定程度上抑制了零均值噪声对语音信号的影响,因而表现出正常语音和病理语音 较为明显的差异性。

图4-17最终获得的SCFCC参数图

Figure 4-17 Finally obtained SCFCC parameter map

本文第六章6.4节对本文提岀的SCFCC特征参数进行了病理语音识别实验,识别 结果见表6-7,基于该特征的病理语音识别率与其他传统声学特征相比有明显提高。

4.6本章小结

本章着重针对病理语音信号的声学特征参数进行了具体的研究与分析。针对正常组

和病理组,提取了其传统声学特征参数,包括基频、短时平均幅度、发音时长、嗓音起

始时间VOT、Mel频率倒谱系数,并进行了详实的分析对比;利用希尔伯特-黄变换HHT 算法提取了第一共振峰和第二共振峰特征参数,并绘制了元音发音空间示意图;分析研 究了非线性动力学参数,包括关联维数、Hurst参数以及最大Lyapunov指数,通过仿真 实验验证了病理语音的非线性混沌特性;最后提出了一种新的耳蜗滤波倒谱系数SCFCC 特征参数,并进行了实验验证,结果表明SCFCC可以较好的反映病理语音的特性,较 之前介绍的传统声学以及非线性动力学参数特征,具有更好的病理语音的识别性能(识 别结果见第六章表6-7)o

第五章 运动学特征参数的分析研究

5.1引言

语音产生过程是从肺部呼出的气流通过声门、气管、声道等,再与各个器官相互作 用而发出声音的,声道的形状是由唇、上瓠、舌头、口腔等生理发音结构的位置决定的。 当正常发音发生病理变异时,我们可利用各个发音器官的运动学特征参数分析病变的复 杂性,从而有效地区分正常人和构音障碍患者的发音情况,弥补传统分析方法的不足。 从发音生理结构复杂度和动力系统差异性的角度上看,运动学特征参数可用于衡量发音 的混沌性以及复杂程度,运用在病理语音识别研究中有较好的效果。正确的发音要求器 官相互配合,产生准确的发音动作,其中舌头和唇部是发音中的重要器官,通过其改变 口腔的共鸣,产生不同的发音。特别是舌部对发音的影响颇大,其发音位置不准确是造 成患者发音障碍的主要原因。

本章着重研究语音发音的运动学特征参数,从舌部、唇部和下颌作为研究点分析研 究发音器官发音时的最大位移、最大速度、最大加速度和减速度、发音时长以及时间空 间拟合指数特征参数,探究病理嗓音和正常发音的差异性;提出一种新的将声学和运动 学结合的特征参数-发音运动起始时间AOT,该参数对病理语音的判断具有较高的区分 度;最后对声学、运动学参数以及听力损伤程度进行了相关性分析。

5.2运动学特征参数

5.2.1运动学特征参数的提取

运动数据通过VisArtico软件提取及分析。图5-1为一位被试元音发音如在z轴方向 的传感器运动轨迹,图中纵轴方向分别是发音器官的运动轨迹(加加)、运动速度(mm/5) 和运动加速度(mm/?)。横轴方向是时间坐标轴。图中的彩色曲线是发音器官随时间推 移的发音运动轨迹,其中蓝色实线代表唇部运动轨迹,绿色实线代表舌部运动轨迹,红 色实线代表下颌运动轨迹。图中从1到15的标记点分别表示了舌部、唇部、下颌发音 运动器官的最大位移、最大开口速度、最大闭口速度、最大加速度和最大减速度。

图5-1 一位被试元音发音/a/在z轴方向的传感器运动轨迹

Figure 5-1 Kinematic curves for traces of sensors on the z axis of vowel /a/, obtained from one participant 5.2.2各器官最大位移参数特征

 

不同的发音是由于口腔形状以及发音器官位置的不同改变了共振腔的大小。在汉语 普通话发音中,舌头是产生发音的主要器官,在发音中起到了主导的作用。嘴唇和下颌 也是发音质量变化的重要调控器,它们的开合运动引起了一系列口腔变化从而调节不同 的发音。嘴唇和下巴的运动比较容易观测到,但很难确定舌部的正确位置,特别是对于 舌头上升和下降的运动EMA作为记录高精度的运动数据的仪器,广泛的运用在 运动学的研究中[儿16 IM,为了进一步探究舌部、唇部和下颌在发音时位置的改变,我 们利用EMA传感器记录口腔内外发音器官的三维运动信息。

首先我们选取发音器官处在放松状态的一帧数据作为原始位置,最大位移 (displacement,简称DISP)为传感器相对于原始位置的最大距离(欧式距离),在轴 上的最大位移可表示为:

DISPx = argmax{Z(posj - Tt (pos\}                                                        (5.1)

DISPy = argmax{7](posj-T {posstat)}                                       (5.2)

DISPz = argmax{T(posj T (posj                                          (5.3)

其中T^pos),Ti(pos)Tj(pos)表示舌部沿x,y,z轴运动时的位置,可(posstat)表示舌 部的原始位置。选取舌部相对原始位置的欧式距离最大的一点作为发音器官的最大位 移。在EMA的三维空间坐标系内,最大位移可表示为:

DISP = arg max j                                     )丁 f                              (5.4)

5.2.3各器官最大速度和加减速度参数特征

正确的发音要求各发音器官相互配合,产生准确的发音动作。舌头和唇部是发音的 重要器官,其运动速度的快慢会影响发音情况。对发音器官的运动位移求导可得到发音 速度,对发音速度再次求导可得到其加速度。本文实验取发音速度和加速的最大值作为 研究对象。

5.2.4发音时长

发音时长是考察韵律和节奏的主要特征之一,很多关于病理语音特征的研究都涉及 发音时长的分析。构音障碍患者多是由于肌肉运动迟缓或舌部运动缺陷造成发音不准 确。发音持续时长是影响正确发音的重要因素,其通过停顿间隔、语速、元音辅音时长 等来体现。本文实验利用praat软件提取被试每个语料的发音时长。

停顿间隔定义为停顿时长占总时长的比例,计算公式为:

pause _ duration pause _ ratio =   二    (5.5)

total _ duratuin

语速定义为单位时间内产生的音节数目,可以表述为音节总数与话语总时长的比 值,计算公式为:

,             syllable _ number

speech _ rate =           二            (5.6)

total _ duratuin

语料的发音时长定义为从发音的开始点到发音结束点的时间差,计算公式为:

duratuin = selection _ right — selection _ left                                         (5.7)

图5-2为利用praat软件以一位被试元音发音/e/为例提取的发音时长示意图,图中 虚线之间差值即为实际测量的发音时长。

Figure 5-2 Extraction vowel /e/ pronunciation duration

 

5.2.5实验结果与分析

提取被试唇部和下颌在发音时的最大位移(相对于初始状态)。正常组NH和病理组

HI唇部和下颌的最大开口位移如图5-3所示。由图5-3可知,两组被试间存在显著的组间差异。病理组在3个普通话元音发音/",

/i/和/u/上唇部和下颌的最大开口位移都明显大于正常组。对于元音发音/"的最大平均唇
部位移,病理组为20.6 ± 5.2 mm,正常组为8.9 + 1.8 mm;最大平均下颌位移,病理组 为20.8 ± 5.4 mm,正常组为8.0 ± 1.7 mm。对于元音发音/i/的最大平均唇部位移,病理 组为7.8 ± 2.4 mm,正常组为3.1 ± 0.8 mm;最大平均下颌位移,病理组为8.1 ± 2.5 mm, 正常组为2.9 + 0.6 mm。对于元音发音/u/的最大平均唇部位移,病理组为3.7 + 1.6 mm, 正常组为2.7 ± 0.6 mm;最大平均下颌位移,病理组为3.8 ± 1.7 mm,正常组为2.8 + 0.6

mmo

图5-4(a)> 5-4(b)、5-4(c)为舌部的传感器(Tl, T2和T3)分别在元音/a/, /i/和/u/发音 时沿着前后(x轴)和上下(y轴)方向的最大位移。黑色虚线代表舌部在放松状态下传感器 (Tl, T2 和 T3)的平均原始坐标位置(Tl(x,y)二(61.4, 10.1), T2(x,y)二(41.2, 12.8), T3(x,y) 二(21.3, 17.1))o蓝色和红色的实线分别代表正常组和病理组相对于原始状态下的最大位 移。数据点代表传感器的具体位置,虚线圆圈代表正常组和病理组舌部最大位移的范围。 从图中可以看岀,正常组在元音发音时比病理组的传感器位置更为集中。

Tongue Front-Back Direction (mm)

(c) vowel /u/
图5-4正常组与病理组舌部最大位移对比图

Figure 5-4 Comparison of mean maximum displacement of tongue for the HI and NH groups

表5-1给出了正常组和病理组元音发音/a/, /i/和/u/舌部三个传感器Tl、T2和T3沿 x轴和y轴位移的平均值(用Mean表示)和标准差(Standardized Deviation, SD)O对于元 音发音如,表5-1⑻中病理组舌部的三个传感器沿y轴方向略微高于正常组,没有明显 的组间差异。对于元音发音/i/,表5-l(b)中病理组舌部的三个传感器沿x和y轴方向明 显低于正常组,即正常组相对于原始状态的偏离位置大于病理组。对于元音发音/u/,表 5-l(c)中病理组舌部的三个传感器沿x和y轴方向明显高于正常组,也说明正常组相对 于原始状态的偏离位置大于病理组。

表5-1正常组和病理组元音发音/a/, /i/和/u/舌部三个传感器位置的平均值和标准差(mm)

Table 5-1 Mean and standardized deviation (SD) of tongue position of three sensors for the vowels in /a/, /i/ and /u/ by pathological group and normal group (mm)

与之前的研究相似[HQ我们发现病理组相较于正常组有较大的上下唇位移和较小 的舌部位移幅度。在汉语发音中,元音发音/"要求舌头随着口腔及下颌的张开向下移动, 口腔的打开使得人们比较容易地观察到舌位的变化,这就可以解释两组被试的舌部位移 较为接近。元音发音/〃要求舌部向上瓠抬起,嘴唇轻微的张开。元音发音/U/要求舌头随 着下颌的降低向下移,嘴型聚拢成小圆型。根据发音规则,/〃和/U/的舌部运动较难观测 到,导致病理组舌部位移的差异性较大。

运动数据显示,病理组在所有元音发音中较正常组表现出更为夸张的嘴部运动。原 则上,嘴唇和下颌的运动变化差异可以直接的观察到。病理组患者可能会更加依赖于下 颌运动,而舌头不能达到正常的位置,尤其是元音/i/和/U/。我们的实验发现构音障碍患 者的舌头移动距离较小,这一发现与之前的研究类似⑴8】,研究表明构音障碍患者缺乏 视觉反馈会导致语音产生过程中舌部运动的受限。

正常组和病理组元音发音时唇部和舌部最大速度的对比结果如表5-2所示。

表5-2两组被试者普通话元音唇部和舌部最大速度的比较结果(mm/s)

Table 5-2 Comparison of maximum speed for lip and tongue between the two groups (mm/s)

*表示显著性p值vO.05; **表示显著性p值<0.01; ***表示显著性p值v 0.001。

从表5-2可以看出,对于唇部的速度数据,病理组在所有元音/a/、/i/、/u/、/o/、/e/、 /ii/的最大速度均高于正常组,其中病理组和正常组只有在元音/i/和/e/有显著性差异,具 有统计学意义(PV0.05);对于舌部的速度数据,病理组患者在元音/a/、/u/、/o/、/e/、 /(!/发音时的速度均低于正常组,组间没有显著性差异,只有在元音/i/发音时的速度高于 正常组,组间有显著性差异,具有统计学意义(PvO.05)。此外,病理组在所有元音发 音时唇部和舌部最大速度的标准差大部分大于正常组。

正常组和病理组元音发音/a/和/i/时最大加速度和最大减速度的对比结果如表5-3所 Zjl O

表5-3两组被试者普通话元音唇部、舌部和下颌最大加速度和减速度的比较结果(mm/s)

Table 5-3 Comparison of maximum acceleration and deceleration for lip, tongue and jaw of vowels

从表5-3运动数据显示,病理组的元音/"和/i/的最大加减速略高,但两组间差异不 显著,即发音器官发音时的最大加速度和最大减速度在病理组和正常组间并没有发现显 著性差异。我们推测发音器官的运动速度可能与发音系统的生理机能有关,构音障碍患 者是由于听力反馈受到限制导致发音的不准确,但其口腔结构并没有异常,所以加速度 与减速度与正常人没有明显的差异。

正常组和病理组元音发音时长的对比结果如表5-4所示。

表5-4两组被试者普通话元音发音时长的比较结果(ms)

Table 5-4 Comparison of vowels duration between the two groups (ms)

正常组                                      病理组                             显著性

*表示显著性p值V0.05; **表示显著性p值V0.01; ***表示显著性p值v 0.001。

从表5-4可以看出,病理组在所有元音/a/、/i/、/u/、/o/、/e/、/ii/的发音时长均高于 正常组,并且病理组和正常组的发音时长在所有元音上都有显著性差异,具有统计学意 义(PvO.05)。此外,病理组在所有元音发音时长的标准差明显大于正常组。

5.3时间■空间拟合指数(STI)参数特征

  • STI的基本概念

时间-空间拟合指数(The Spatiotemporal Index, STI)是用于度量重复语句中的运动 变化[I"】。STI表示轨迹的集合在平均时间和振幅的归一化运动模型上的收敛度,也可以 称之为发音运动的稳定性M2。]。STI并不能替代传统的测量方法,而是提供了一种方法来 量化舌头、嘴唇和下巴运动的一致性。STI不仅是针对正常说话人的运动模型,研究者 在一些有语言运动障碍的人身上也发现了动作的一致性网。

  • STI参数的提取

为了提取相关的运动学样本进行分析,本文实验通过计算时间-空间拟合指数(STI) 来确定舌尖、下唇和下颌运动稳定性。选取垂直方向(z轴)的运动信号进行分析,因为 这是语音产生过程中声道收缩的主轴。选取舌尖(T1)、下唇(L2)和下颌(J)的传感器作为 研究点。对于每一个被试和语料,它是通过重复5次的时间和振幅归一化位移计算以2% 为间隔的标准差。较高的STI值表明运动一致性较差,相反,较低的STI值表明运动一 致性较好。

5.3.3实验结果与分析

图5-5显示了正常组和病例组被试在三个音节/pa/、/ta/和/ka/的STI值。由图可知, 病理组在三个音节的发音中STI值均明显高于正常组,并存在显著性的差异。对于音节 /pa/,病理组唇部的STI值为18.7 + 2.9,正常组唇部的STI值为17.4+1.5;病理组下颌 的STI值为17.8 + 2.7,正常组下颌的STI值为17.0 + 1.2;病理组舌部的STI值为21.4 + 3.8,正常组舌部的STI值为17.8 + 1.4,在病理组发现较高的变异性。对于音节/ta/,病 理组唇部的STI值为28.0 + 3.8,正常组唇部的STI值为25.2 + 2.0;病理组下颌的STI 值为27.9 ±2.8,正常组下颌的STI值为25.8 + 1.2;病理组舌部的STI值为34.5+4.2, 正常组舌部的STI值为28.8 + 1.9,正常组的稳定性要高于病理组。对于音节/ka/,病理 组唇部的STI值为26.2 ±3.1,正常组唇部的STI值为20.9 + 1.8;病理组下颌的STI值

为25.8 ±3.1,正常组下颌的STI值为20.8 + 1.7;病理组舌部的STI值为29.5 + 3.9,正 常组舌部的STI值为21.6 ±2.0,病理组表现出较低的运动一致性。对于发音/ta/和/ka/, 所有的发音器官在两组被试间都存在显著性差异。对于发音/pa/,只有舌部存在显著性 差异。

图5-5发音器官舌部、嘴唇和下颌的时间-空间拟合指数STI平均值和标准差

Figure 5-5 The mean spatiotemporal index (STI) and standard error for tongue, lips, and jaw

正如我们所估计的,病理组相对于正常组有较高的STI值。在之前的研究中,较高 的STI值被发现在各种构音障碍人群中,但聋哑患者和正常人STI值之间的差异是鲜为 人知的。在我们的研究中,STI特征参数可以较好的区分正常人和病理组患者的发音情 况。实验发现,两组被试的舌部STI值均略高于唇部和下颌的STI值,病理组患者的各 个发音器官STI值均高于正常人,特别在舌部的运动。这是由于人们通常很难直接的辨 别舌部运动上升或者下降的正确位置UM。早期的研究表明,舌头的活动受限会导致语 言产生障碍。发音是由呼吸系统和口腔结构(唇、舌、瓠、膜和喉)的神经协调控制,发 音的位置决定了共振腔,从而产生不同的特征音节[I?】]。在汉语发音中,双唇音/pa/要求 嘴唇相互挤压,齿槽音/ta/要求舌尖向上卷曲接触压槽,软腭音/k"要求舌体向软腭靠近 后下移。由于舌部运动不宜直接观测,病理组患者无法通过视觉反馈习得正确的舌位, 导致舌部的运动稳定性与正常人相比差异性较大。

5.4发音器官起始时间(AOT)的提出

5.4.1 AOT理论的提出

Booker and Donald[122]研究发现,发音器官的运动可能会先于声音的产生几百毫秒, 特别是在塞音发音时(/p/, /t/, /k/),但具体的开始时间并没有明确分析。随后Guang Ouyangt123]等人在脑电信号研究中发现,说话人发音和发音器官(舌头、下颌和嘴唇)在时 间上有着密切的联系。然而,先前的研究者并没有准确的定义发音器官开始运动到声音 产生的时间间隔。本文利用时间同步的声学数据和运动学数据,定义了发音器官开始运 动到声带开始震动这段时间间隔为发音运动起始时间(Articulator Onset Time, AOT)。随 后还进一步研究了听力损伤程度是否会影响AOT值,以及与其他相关参数的联系。

  • AOT提取方法

用Visartico软件将音频信号和运动信号以时间对齐的方式打开,以辅音/d/为例,如 图5-6所示,以时间轴为横坐标,图中上半部分为舌部运动信息,纵坐标为舌部发音时 垂直方向的运动轨迹(单位:mm),其中红色实线为舌尖,绿色实线为舌中,蓝色实线为 舌后。图中下半部分为语音波形图。图中可以看到,发音器官先于声带发音开始运动, 本文定义这段时间为发音器官的起始时间AOTo在声带振动前,发音器官为正确的发 音形成先有一个准备动作,形成正确口型后才开始发音。根据本文定义的方法,提取被 试的AOT信息。

时间

图5-6 AOT提取标准

Figure 5-6 AOT extract standard

5.4.3实验结果与分析

正常组和病理组AOT值的平均值和标准差如表5-5所示。由于不同的发音器官发

音运动起始时间不同,所以我们分别对唇部、下颌、舌部的AOT值进行分析。

表5-5正常组和病理组AOT值的平均值和标准差

Table 5-5 Comparison of AOT between hearing impaired and normal-hearing groups

从表5-5数据显示,对于唇部运动:在发音/pa/上,病理组(HI = 292-692 ms, mean = 488.6 ms±144.1)的 AOT 值明显高于正常组(NH 二 264724 ms, mean 二 344.8 ms±51.8),两 组间存在显著性差异(F2;22二12.111, p < 0.01);在发音/ta/上,病理组(HI二140-628 ms, mean = 393.3 ms±151.7)的 AOT 值同样高于正常组(NH = 112-244 ms, mean = 186.5 ms, ±45.1),两组间存在显著性差异(F2; 22二18.55, p < 0.01);在发音/ka/上,病理组(HI二 252-508 ms, mean = 376.8 ms±82.7)和正常组(NH = 140-188 ms, mean = 168.6 ms, ±18.7) 在AOT值上也是存在显著性差异(F2; 22二72.231, p < 0.001)。

对于下颌运动:在发音/pa/上,病理组(HI =300-694 ms, mean = 488.9 ms±140.5)的 AOT值明显高于正常组(NH二264724 ms, mean二336.7 ms+52.6),两组间存在显著性差 异(F2; 22 = 12.335, p < 0.01);在发音/ta/上,病理组(HI 二 142-628 ms, mean 二 387.8 ms±152.5)的 AOT 值同样高于正常组(NH 二 114-246 ms, mean 二 187.0 ms±48.0),两组间 存在显著性差异(F2;22 二 18.933, p < 0.01);在发音/ka/上,病理组(HI 二 256-508 ms, mean 二 379.0 ms±82.4)和正常组(NH 二 146-194 ms, mean 二 172.8 ms±18.1)在 AOT 值上也是存在 显著性差异(F2; 22 二 71.491, p < 0.001)o

对于舌部运动:在发音/pa/上,病理组(HI二300-700 ms, mean二489.5 ms+ 144.3)的 AOT值明显高于正常组(NH二260714 ms, mean二325.6 ms+53.5),两组间存在显著性差 异(F2;22 二 13.59& p < 0.01);在发音/ta/上,病理组(HI 二 172-668 ms, mean 二 411.1 ms±148.8)的 AOT 值同样高于正常组(NH 二 186-284 ms, mean 二 233.8 ms±35.8),两组间 存在显著性差异(F2; 22 二 16.029, p < 0.01);在发音/ka/上,病理组(HI 二 248-508 ms, mean 二 370.8 ms+85.0)和正常组(NH 二 138-184 ms, mean 二 166.0 ms+17.8)在 AOT 值上也是存在 显著性差异(F2;22 二 66.672, p < 0.001)o

在我们的研究中,运动器官起始时间相对于嗓音起始时间较早发生。AOT方法应 用于发音障碍患者的研究,提供了声学和运动学特征相结合的综合语音评估依据。这种 测量方法将有助于测评语音运动系统的正常运行,为声学和运动学研究提供了技术支 持。

5.5声学和运动学参数及听力损伤程度的相关性分析

5.5.1 Pearson相关性分析

Pearson相关系数是统计学研究中的一种线性相关系数〔⑵],通常用来分析两个变量 之间的相互关系,广泛的应用于表示线性相关的强弱。如果有两个变量X=g,X2, •••,£} 和Y = {ypy2,...,yj , Pearson总体

若相关系数为0,两个变量X、Y之间无联系;若X变量值增大(或减小),丫变

利用Pe如son相关系数研究病理语音特征参数间的关系,分析发音器官的声学参数 和运动学参数间的相关性,可探究听力损伤程度与各个参数间的依赖程度,为临床病理 学研究提供一个新思路。

5.5.2实验结果与分析

图5-7显示了语料/pa/、/ta/和/ka/的唇部、下颌和舌部VOT和AOT值之间的关联。 正常组NH和病理组HI之间的VOT和AOT在计算相关系数时均未出现统计学意义上 的显著相关,且各参与者定义的数据点均为相关系数。然而,统计分析提供了组间分布 差异的有用信息。

表5-7中清楚地显示了声学和运动学变量之间的关系。AOT参数与STI参数在各个 发音器官上的所有发音都具有相关性,而VOT参数在发音/k"上与STI参数相关性较弱表中还显示了 AOT参数与患者听力损伤程度有明显相关性,VOT参数与听力损伤程度 的相关性只体现在发音/pa/和/ta/±o与正常组相比,病理组在声学和运动学参数上表现 岀更大的变异性,特别是舌部位移的变异性明显增加。此外,发音器官的运动变异性于 听力损伤程度成正相关性。Grigos等人[/I发现发音/p/中STI参数与VOT参数呈显著负 相关,与我们的结果一致。

5.6本章小结

本章着重对病理语音信号的运动学特征参数进行了具体的分析与研究。详细分析对 比了正常组和病理组发音器官发音的最大位移、最大速度、最大加减速度、发音时长等 特征参数;提取了时间空间拟合指数STI并分析了组间的差异性;结合声学和运动学发 音机理,提出了发音器官起始时间AOT特征参数,给出了 AOT的具体提取方法,并通 过实验表明正常组和病理组在AOT值上有明显的差异性。论文还对声学和运动学以及 构音障碍患者的听力损伤程度进行了相关性分析,与其他参数相比,AOT特征参数与 听力损伤程度呈显著相关性。

第六章基于多特征融合的病理语音识别研究

6.1引言

语音识别技术是一门交叉综合性学科,它涉及声学、通信信息学、语言学、生物学 及模式识别等。近年来广泛应用于病理语音学,对病理语音的识别研究可为临床诊断和 康复训练提供理论基础。本章在传统语音识别技术基础上,针对构音障碍患者病理语音 进行识别研究,将声学参数与生理结构特性参数相结合,对多类数据进行融合处理,最 终提高病理语音的准确率。

目前,多数研究者是从韵律特征、共振峰以及非线性动力学特征等声学参数岀发, 对病理语音进行识别,没有从生理角度将运动学参数与声学参数结合进行病理语音研 究。而在病理语音的识别和评估过程中,包含越多类别的特征参数信息,才能使分类结 果更加准确,因此本章对构音障碍患者病理语音的声学及运动学特征参数进行多特征融 合和优化,选择最优的特征集进行语音识别。为了提高病理语音的识别率,本文提岀一 种将改进的核主成分分析(Kernel Principal Component Analysis, KPCA)与判别典型相关 分析(Discriminative Canonical Correlation Analysis, DCCA)相结合的新的参数融合方法 (Kernel Discriminative Canonical Correlation Analysis, KDCCA),并且分析比较了 单特征 和融合特征以及特征集在不同分类器(SVM, RBF, C4.5和RF)上的识别结果。实验结果 表明,基于KDCCA的融合特征优化方法和随机森林分类器的识别效果较好,有效的提 高了病理语音的识别率。

6.2语音识别系统

6.2.1语音识别系统概述

不同的语音识别系统实现方法也有所不同,但核心原理是基本相同的。语音识别系 统的基本结构一般包括三大部分:信号预处理、特征提取和训练识别模型,图6-1为语 音识别系统的基本结构框图。

图6-1语音识别系统的基本结构

Figure 6-1 Basic Structure of the Speech Recognition System

语音信号的预处理主要是针对原始语音信号进行预滤波、预加重、分帧加窗和端点 检测等内容。声学特征提取的基本思想是对预处理后的信号进行时域和频域的分析,提 取出典型的有代表性的参数进行训练识别,同时进行适当的数据压缩,目的是提高识别 率和系统的性能。特征提取作为语音识别中的重要环节,直接对识别系统的性能产生较 大影响。因此,如何从语音信号中提取到能够充分表征其语义信息的最优特征参数,进 一步提高识别率是语音识别面临的问题之一。

语音的训练识别模型就是对提取的语音特征进行训练和分类,最终输出识别结果。 语音识别率的高低不仅取决于特征参数的质量优劣,同时识别模型本身也存在匹配的差 异性。在病理语音的识别过程中,选择合适且性能好的识别模型是获得较高识别率的基 础。不同的分类器模型适用于不同的数据集,各自算法都有其优势和局限性。目前,常 用的病理语音训练识别模型主要包括支持向量机(Support Vector Machine, SVM)、 RBF(Radial Basis Function, RBF)神经网络、决策树(Decision Tree) C4.5 和随机森林 (Random Forest, RF)等方法。

下面对常用的训练识别模型做简要介绍。

  1. 支持向量机SVM

支持向量机SVM是Cortes和Vapnik[126]于1995年提出的一种分类算法,该算法在 语音识别中表现出许多特有的优势[⑵],例如在解决小样本、非线性以及高维度不可分 等问题上表现出良好的性能。支持向量机的主要目标是构建一个能有效地将待分类输入 样本无错误分开的最优分类面,使得特征向量从低维空间映射到高维空间,从而实现样 本的线性可分问题[12&129]。

假设〃个观测样本为(西,开),(吃,%),•••,(暫,儿),最优分类面的求解即是求解式6-1中 ⑵和b的最优化问题:

式中:⑵和b是支持向量机的权值和偏向量,旺是第i个样本,升是对应的类别标 号。另外由于一部分

式中sgn为符号函数。

为了解决非线性划分问题,将训练向量不通过函数0映射到一个高维以至无穷维的 特征空间中,在特征空间中寻求最优解。在此过程中若能找到一个核函数K(,),满足: 凤无,厂)二(0(无)*0(厂)),则原空间中的函数可以用来进行变换空间中的点积运算,进 而避免映射0的具体形式。

SVM分类器常用的核函数包括以下几种:

  1. RBF神经网络

径向基函数RBF神经网络是一种性能良好的前馈神经网络模型wo, Hi],是基于人脑 的神经元细胞对外界反应的局部性而提出的,具有最佳逼近性能和全局最优的特性,能 够以任意精度逼近任意连续函数[①】。RBF网络学习能力和容错性较强,分类准确率较 咼。

径向基特性函数包含三层前馈式神经网络,分别是输入层、径向基层和输出层,如 图6-2所示。其中,输入向量X是由〃个态势值元素组成,输出向量Y是由加个态势值 元素组成。

学习的目的是使J 式6.12中,儿是在兀卩输入下网络的输岀向量。RBF神经网 络的训练学习算法包括

  1. 决策树5

决策树C4.5分类方法是在ID3算法的基础上进行的改进,它在对杂乱的数据进行 挖掘时提取分类规则,自顶向下的形成决策树,且运行速度较快,可扩展到大型数据库 中。

C4.5算法的原理及计算步骤如下⑴叽

假设集合S为训练样本,将训练集分成加类,第z•个实例的个数为耳,》/ s为概率Pj, Info©)为类别信息*商,其*商的计算公式如下:

若选择属性A划分训练集S,训练样本S的值将分成合集,设属性A有k个不同的 值,属于第i类的训练实例个数为%,则属性A的条件信息嫡为InfoA(S,则对这些 子集进行嫡的加权和的计算,公式如下所示:

信息增益在计算过程中有时会岀现决策树分枝多、函数值大等的缺点,故引入信息 增益率的概念,该计算方法不用考虑分类的信息量,而是逐个考虑每一次的划分结果。 划分属性A的信息增益率定义为:

决策树生成算法[i珂是输入带有类别属性训练样本,最终构造出决策树。具体算法

如下:

输入:训练样本samples,条件属性的集合为attribute_listso

输出:由训练数据产生一棵决策树。

  • 对训练样本预处理后创建根节点root;
  • 训练样本samples都属于同一类别,记root设为叶子结点,标记类别为C;
  • 若训练样本samples数量少于给定值,将wot所属的类别作为样本数量最多的 类别C;
  • 计算候选属性attribute_lists中每个属性,选取最大GainRatio(A)作为当前节点 的分割属性,并计算集合里每一个条件属性列表中每个属性的信息增益率;
  • 根据分割属性的值对训练样本子集进行处理,建立相应分枝;
  • 假设每个root产生的新叶子节点的样本子集为空集,且为训练样本数最多的类 别,若不是叶子节点将继续分裂,直到没有可划分的子节点;
  • 对相同属性的叶子结点合并,对决策树进行剪枝。
  1. 随机森林RF

随机森林RF】】均是一种基于决策树分类器的集成学习算法,它大幅提高了单一决策 树分类器在进行识别时的准确率和泛化能力,在很多领域中都表现出了较为出色的性 能,并且得到了非常广泛的应用。

使用决策树分类时容易产生过度拟合的现象,而随机森林算法可以较好地解决这一 问题。随机森林的基本思想[1殉是随机的从训练样本中等概率的抽取特征,将其构成独 立的决策树并重复此过程,直到构建足够多且相互独立的决策树,通过决策树的特定规 定产生最后的分类结果。其原理图如图6-3所示。

图6-3随机森林原理图

Figure 6-3 Stochastic forest schematic diagram

假设随机森林以K棵决策树{/z(X0)K = l,2,...,K}作为基分类器进行集成学习,其 中Gk = \2...,K}是一个随机变量序列,需符合以下原则:

  • Bagging算法:从原始样本集X随机抽取K个与原始样本集同样大小的训练样本 集{7;,£ = 1,2,...,K},并且由每个训练样本集构造一个决策树作为基分类器。
  • 特征子空间:等概率的从样本中抽取子集,选择最优属性来分裂节点,以此方 法进行决策树每个节点的分裂。

随机森林算法在构建每个决策树时,是相互独立的抽取训练样本集和属性子集的过 程,所以随机变量序列{dk‘k = \2…,K为相互独立分布的。把通过以上方法得到的K 棵决策树进行组合,即可获得一个随机森林。此外,根据bootstrap的抽样原理可知,在 对每棵决策树进行训练时,没有被抽取到的样本称之为袋外样本(Out-of-Bag),在评价决 策树的性能以及特征度量时会用到袋外样本。

设X, 丫是两个随机向量,构成森林的一系列决策树为人(力血⑷,…/^%)。定义边 缘函数为:

mg (X, y) = avk (Z(/2, (X) = K)) - max avk (I(hk (X) = j))                (6.24)

j=Y

其中:/(.)为示性函数,丫和/为正确和不正确的分向量,q叫(.)表示取平均。边缘函数 越大,表明分类

其中P(^(X) = r)为判断正确的分类的概率,maxP(^(X) =力为判断错误的其他分类的 概率最大值。

随机森林的边缘函数的期望相当于分类器集合{/2(x)}的强度,定义式如下:

综上所述,不同的识别模型算法各有其优势和局限性,表6-1列出了不同训练识别 模型优缺点的对比。

表6-1不同训练识别模型的优缺点对比

Table 6-1 Comparison of the advantages and disadvantages of the recognition models

由表6-1可知,随机森林RF算法适合处理高维数据,并且适应力强,运算速度快, 比较适合本文处理的高维数病理语音特征,因此本文选取RF算法作为病理识别模型, 本章中表6-3, 6-4, 6-5及图6-5所示四种模型识别结果证明了 RF算法良好的性能。

6.2.2本文病理语音识别具体思路

为了对构音障碍患者的病态语音与正常发音进行分类识别,本文的具体思路如下: 首先对病理语音数据进行了筛选预处理,得到了较为理想的实验语料(见第三章表3-4); 然后提取其声学及运动学特征参数(见第四章和第五章),并进行多特征融合和优化,选 择最优的特征集,为了进一步提高病理语音的识别率,提出一种将改进的核主成分分析 KPCA与判别典型相关分析DCCA相结合的新的参数融合方法KDCCA,最后将特征参 数与机器学习算法结合进行语音识别实验,探究病理语音识别中的最优特征及识别模型 组合。具体思路框图如图6-4所示。

图6-4本文构音障碍病理语音识别系统思路框图

Figure 6-4 Flow chart of Pathological speech recognition system of this paper idea

6.3基于随机森林的病理语音识别

6.3.1识别结果评价指标

语音识别研究首先要了解常用的模型评价术语,我们将目标分为正例(positive)和 负例(negtive)两类,则有以下概念:

⑴Tme positives(真正,TP):模型预测为positive,分类器实际划分为tme的样本 个数,又称为真的正确率;

  • False positives(M负,FP):模型预测为positive,分类器实际划分为false的样本 个数,又称为误报率;
  • False negatives(假正,FN):模型预测为negatives,分类器实际划分为true的样 本个数,又称为漏报率;
  • True negatives(假负,TN):模型预测为negatives,分类器实际划分为false的样 本个数,又称为假的正确率。

Positive和Negative代表分类器的预测结果,True> False代表分类器最后的划分结 果。如果正例计为1、负例计为-1,即positive二1、negtive二-1,用1表示True, -1表示 False,那么实际的分类二TF*PN, TF 为 true 或 false, PN 为 positive 或 negtiveo 例如 True positives(TP)的实际分类=1*1 二 1 为正例,False positives(FP)的实际分类=(-1)*1 二-1 为负 例,False negatives(FN)的实际分类=(-1)*(-1)二 1 为正例,True negatives(TN)的实际分类 二1*(-1)二-1为负例。预测分类如表6-2所示。

表6-2识别结果预测分类

Table 6-2 Recognition result prediction classification

识别的准确率、灵敏度和特异性等常用语是对识别性能评价的主要指标[⑶]。

  • 准确率(accuracy)

正确率是我们最常见的评价指标,accuracy二(TP+TN)/(P+N),用来描述分类器的准 确率;

  • 灵敏度(sensitive)

sensitive = TP/P,是指识别岀的正例占所有正例的比例,用来描述分类器对于正例 的识别能力,这意味着当疾病出现时,检测出疾病的能力较高;

  • 特异性(specificity)

specificity = TN/N,是指识别出的负例占所有负例的比例,用来描述分类器对于负 例的识别能力,这意味着当疾病不存在时,具有检测排除疾病的能力。

6.3.2不同识别模型识别结果对比

随机森林分类算法在对声学特征参数的病理语音识别中已广泛应用〔42, 1迢1涸,但对 运动学参数的识别运用较少。为了得到较好的识别效果,同时也为了探究各种运动学参 数特征与识别模型的组合对病理语音和正常语音的识别性能,本节中进行了多组基于不 同运动学特征和不同识别网络的对比实验。其中,特征选用的运动学特征参数包括舌部 的最大位移、最大速度和发音时长;分类器分别选用了 SVM、RBF神经网络、C4.5决 策树以及随机森林RF。其中,SVM选用径向基核函数,惩罚因子C设置为1,参数丫设 置为0.5。RBF神经网络隐藏层到输出层的权值设置为1。C4.5决策树每叶的实例数设 为2,置信因子设为0.25o

本节实验利用筛选后的病理语音集中韵母发音数据(见表3-4),随机选取402例正 常语音和389例病理语音样本作为模型训练集,其余的正常语音和病理语音样本各300 例作为测试集。将舌部的最大位移(DISP)、最大速度(S_max)和发音时长(Duration)三种 单一运动学特征参数分别作为随机森林的输入进行病理语音识别,表6-3, 6-4, 6-5给 出了基于不同单一运动学特征和不同识别模型的识别结果对比。

表6-3舌部最大位移特征分别通过SVM, RBF, C4.5和RF的识别结果(%)

Table 6-3 Performances of sample detection by tongue DISP using SVM, RBF network, C4.5 and RF (%)

表6-4舌部最大速度特征分别通过SVM, RBF, C4.5和RF的识别结果(%)

Table 6-4 Performances of sample detection by tongue S_max using SVM, RBF network, C4.5 and RF (%)

由表6-3〜6-5可知,从识别结果的准确率来看,舌部的最大位移特征参数在随机森 林作为分类器时准确率达到最高65.50%,虽然在其他分类器的识别率均在50%以上, 但识别性能并不理想;舌部最大速度特征参数的识别率也在随机森林作为分类器时达到 最高59.83%;发音时长特征参数在各个分类器的识别率较高,均达到80%以上,其中 随机森林的识别率表现最佳,达到86.67%o从识别结果的灵敏度来看,随机森林识别 模型整体的敏感度较高,说明该识别网络对于检测病理语音的能力较强。

图6-5给出了使用上述三种运动学特征参数(舌部的最大位移DISP、最大速度和发 音时长),两两组合及全部组合作为各识别模型的输入进行病理语音识别的结果。

图6-5组合特征分别通过SVM, RBF, C4.5和RF的识别结果(%)

Figure 6-5 Performances of sample detection viacombined features using SVM, RBF network, C4.5 and RF,
respectively (%)

图6-5及表6-3〜6-5识别结果表明,两两组合特征获得的识别率高于单一特征,三 种特征组合的识别率又高于两两组合特征的识别率。而相比之下,组合特征在随机森林 识别模型下所达到的识别正确率较高,其中将三种运动学参数DISP, S_max和Duration 组合的识别准确率达到了 88.5%,体现了频谱特征与时域特征结合的优势,以及随机森 林算法对于高维数据集的良好识别率。随机森林相对于神经网络、支持向量机、决策树 等方法具有更好的噪声容忍度以及更高的预测准确率,且不容易出现过拟合问题,因此 我们选用随机森林的方法用于随后的病理语音识别实验中。

6.4声学及运动学多特征参数的融合

6.4.1多特征组合的构建

为了构造更有效的语音特征子集,本节将声学特征参数和运动学特征参数进行了融 合。对于构音障碍患者,将声学特征融入运动学参数,能很大程度弥补单纯语音识别时 性能上的不足,更能进一步完整地描述语音的特性,从而获得更佳的识别效果。本文提 取的声学特征参数包含韵律特征、MFCC、共振峰、关联维数、Hurst参数、最大Lyapunov 指数以及新的SCFCC特征参数;运动学特征参数包含各器官的最大位移、最大速度、时 间-空间拟合指数以及提出的AOT特征参数。特征的统计数量如表6-6所示。

表6-6特征统计量

Table 6-6 Characteristic statistics

将所有特征组合最终构成一种特征集(Feature of Acoustic and Kinematic, FAK)。FAK

特征集合表示为:

F = {P,A, VOT,M,F1, F2, D, H,L, SCFCC, DISP, S, Duration. STI, AOT] (6.31)

其中:

(1) P向量是由基频的特征参数构成的,包括基频的均值、最小值和最大值,基频 一阶差分的均值、最小值和最大值:

P = (max P, min P, P, max AP, min AP, AP)

  • 人表示短时振幅平均值;
  • VOT表示嗓音起始时间;
  • M表示MFCC特征系数;

⑸F1和F2向量是由第一、二共振峰的特征参数构成的,包括共振峰的均值、方

差、最小值和最大值,共振峰一阶差分的均值、方差、最小值和最大值:

F1 = (max^,min^,^,cr^,max A7^,min A7^,cr^)

F2 = (max F2, min 坊迅,cr; , max AF2, min AF2, AF2, o■二)

  • 表75关联维数;
  • H表示Hurst参数;
  • 厶表示最大Lyapunov指数;
  • SCFCC表示基于S变换的SCFCC特征参数;
  • D/SP表示发音器官的在三维空间坐标系的位移:

DISP = (x, y, z)

  • S表示发音器官的在三维空间坐标系的运动速度:

s =

  • Duration表示发音时长;
  • STI表示在三维空间各个方向的时间-空间拟合指数;

STI = (STIpSTIy,STIJ

  • 40卩表示各个发音器官在三维空间各个方向的发音运动起始时间:

6.4.2用声学或运动学单一特征的识别结果

本节实验选取筛选后的病理语音数据(具体见表3-4),整个数据集包含不同语料类型 包括韵母、声母、音节和句子。对于韵母发音,随机选取402例正常语音和389例病理语 音作为训练集,其余的正常语音和病理语音样本各300例作为测试集;对于声母发音, 随机选取828例正常语音和784例病理语音作为训练集,其余的正常语音和病理语音样本 各400例作为测试集;对于音节发音,随机选取3375例正常语音和2873例病理语音作为 训练集,其余的正常语音和病理语音样本各1500例作为测试集;对于句子发音,随机选 取246例正常语音和211例病理语音作为训练集,其余的正常语音和病理语音样本各110 例作为测试集。提取不同的单一声学参数特征(见第四章)和不同运动学参数特征(见第五 章),将各个特征单独作为输入,利用随机森林分类器对病理语音数据进行识别,其中 运动学中发音器官选择舌部作为研究对象。表6-7和表6-8分别给出了不同单一声学参数 和运动学参数的病理语音识别结果。

表6-7不同声学特征参数的病理语音识别率(%)

Table 6-7 Recognition rate of acoustic characteristic parameters in pathological speech (%)

表6-7表明,从单一声学特征参数的识别率来看,病理语音声学各特征在句子和韵 母的识别率相对较高;非线性运动学特征相对于传统的声学参数识别率有所提升,说明 非线性动力特征对病理语音的分类有一定的效果,这是因为病理语音具有非线性混沌特 性;本文提岀的新声学参数SCFCC的最高识别率为88.50%,平均识别率也达到了单特征 中的最高值86.56%,这充分证明了本文提出的新声学参数SCFCC在病理语音识别中的有 效性。

表6-8不同运动学特征参数的病理语音识别率(%)

Table 6-8 Recognition rate of kinematic characteristic parameters in pathological speech (%)

由表6-8可知,从单一运动特征参数的识别率来看,整体识别率相比声学参数较低; 在韵母和句子的识别率仍体现出较好水平;发音时长相对于其他运动学特征参数表现出 优势,平均识别率达到85.93%;本文提出的将声学与运动学相结合的特征参数AOT在唇 部、下颌、舌部各个发音器官的识别率较高,均达到了86%以上。其中舌部AOT的平均 识别率达到86.82%,说明其在病理语音识别中具有较好的性能。

6.4.3声学和运动学组合特征识别结果

6.4.3小节我们对声学和运动学的单一特征识别率进行了具体的实验分析,发现不同 的特征可以从不同的角度反映病理语音的信息。本小节将单一特征组合后进行识别,将 其分为声学特征参数组合、运动学特征参数组合以及声学和运动学特征参数组合,识别 结果如表6-9所示。

表6-9组合特征识别结果(%)

Table 6-9 Combination feature recognition result (%)

从表6-9可以看出,声学特征参数组合后病理语音的平均识别率达到88.92%,较单

个声学特征的识别率有明显提高。将声学和运动学特征组合的识别率又有了明显的提 升,平均识别率达到了91.34%。图6-6更直观的体现了组合特征的识别率,虽然运动学 特征参数的整体识别率较低,但将其和声学参数特征组合后识别率均有所提升,证明运 动学特征对声学特征起到了补偿作用,两者组合能够比较全面的反映病理语音的特性, 并且使识别率进一步提高。

6.5 —种新的病理语音特征参数融合方法

前面本文的研究验证了除语音信号外,发音器官的生理信号也是十分重要。将不同 模态的信号融合、归一化,将会提高语音的识别率。643小节仅是将单一声学特征参数 和运动学特征参数经过不同的组合进行病理语音识别,为减少特征数据存储量,获得最 优特征融合集合,本节提出采用改进的核主成分分析KPCA提取特征,再利用判别典型 相关性分析DCCA将两种特征进行融合,构成一种新的病理语音特征参数,简称为 KDCCA,最终达到降低特征向量的维数,减少识别所需的时间,提高系统的语音识别 性能。

6.5.1改进的核主成分分析KPCA

核主成分分析口3刃KPCA是在主成分分析口4。] (Principal Component Analysis, PCA)的 基础上提出的非线性扩展算法,用核函数代替了原来的数据。PCA方法[⑷]的原理实际 上是一种线性映射算法,但在处理病理语音这类非线性的语音信号效果并不理想。KPCA 的本质是一种非线性的PCA算法a。],通过将非线性特征空间映射到高维特征空间,再 使用传统的线性方法提取特征,从而达到降低信息维数和减少计算量和存储量的作用。

其中少=如口,由于V计算非常困难,因此在这里引入核函数的概念。定义K为核 An

矩阵:

核函数选择影响到KPCA算法的性能,特别是信息特征的提取。常用的核函数主要 包含有有多项式核函数、高斯径向基核函数、Sigmoid核函数等,类型有两种包含全局 核函数和局部核函数。本文通过反复试验,提出一种改进的KPCA算法,将多项式核函 数和高斯核函数以最优参数组合,构造出结合全局核函数和局部核函数优点、贡献率更 大的混合核函数。

其中。为比例系数,y,c,d,cr为多项式核函数和高斯核函数的待定参数。利用二分法对 核参数进行优化,经过多次模拟实验,得到p = 0.& cr2 = 500, y = c = l, d = 2时混合核 函数的贡献率达到最高。

6.5.2判别典型相关分析DCCA

Hotelling在 1936年提出了典型相关分析[142](Canonical Correlation Analysis, CCA)的 概念,目的是研究变量在多元统计分析中的相关性问题。基本思想是,通过某种线性变 换将多维变量之间的相关性转化为少数几对变量之间的相关性,用于降低维数和特征选 择,实现信息的特征融合,此方法常用于模式识别HQ、信号处理等领域[1牲145]。判别典 型相关分析DCCA是在传统的典型相关分析的基础上发展而来的一种基于半监督学习方 法,能够利用样本的判别信息,充分考虑组内样本和组间样本之间的相关性及其对分类 的影响,识别性能更优。

设有两组零均值随机变量x =(旺宀,…,暫)和y =(X,%,…,儿),DCCA的目标是找到 一对投影方向同和01,使得一对典型变量ur=a^x和儿=0门之间具有最大的相关性。 同理寻找下一对投影方向理2和02,得到对应的典型变量和卩2,使其与附和卩2不相关。 重复此步骤直到X和y典型变量提取完毕为止。我们可以根据其中的几对典型变量即可 分析兀和y之间的相关性。DCCA的准则函数为:

^E[u2]E[v2] ^E[aTSxxa]E

o在此我们用模糊C均值算法 来确定样本的隶属度。

假设样本集合{巧,2』12・..川}由〃个样本组成,聚类损失函数可用隶属度函数表示 为:

人=亍立“2)]北-(7.4) 7=1 /=1

其中,c为类别数目,“‘吗)是第丿类中第i个样本对应的模糊隶属度函数,b是一 个大于1的可控制聚类结果模糊程度的常数,竹()= 1,2,...,c)为每个聚类的中心。

用迭代法求解式(7.6)和(7.7),当算法收敛时,就可得到各类的聚类中心和各个样本 对于各类的隶属度值。

7.3.4基于F-Score算法确定综合权重系数

由于各个因素在决策过程中的重要程度不相同,因此我们用权重数来描述各个因素

的不同作用。由各个权值所组成的集合称为权重集,表示为W = {W],W2,...,M;}。用来确

定权重系数的常用方法有嫡权法[151】,该方法将评价指标的重要程度根据嫡权大小来决 定,即用有效信息的含有量大小进行表征I®]。但该方法存在很多缺点包括受限于样本 的数量、未考虑因素间的相互关系等。

F-Score是一个衡量结果准确性的评价指标其本质是筛选类内差异小,类间差 异大的有效特征。F-Score值越大,则认为一定程度上该特征的分辨能力越强。本文提 岀利用F-Score算法确定权重系数,将特征筛选的思想融入评价模型,使得病理语音的 评价模型更为客观。

给定训练样本集xk^Rm , k =                          1(42)是样本类别数,©为第/类的样本

个数,其中)= 1,2,...,/,得到训练样本中第z•个特征的F-Score值,定义公式如下:

其中E表示第「个特征在整体数据集上的平均值,E⑺表示在第j类整体数据集上的平 均值,垃?表示在第j类第£个样本第i个特征的特征值。

根据F-Score值确定各个指标在评价体系中的权重,这样就得到了基于F-Score的 评价指标权向量" =      在得出评价结果前,要对权向量W进行归一化处理:

即所有评价指标的权重之和为lo

基于F-Score算法确定的权重较为客观,避免了主观评价的随意性,完全由数据决 定。但这种客观的权值有时与专家主观评判的结果有差距,因此本文将客观的F-Score 确定权重的方法与主观的专家评判相结合,将特征指标的综合权重定义为:

其中人为专家评判的权值,由此得到将客观与主观相结合的综合权重结果。

7.4构音障碍患者的病理语音发音评价结果

其中b为测试者中的最小值,c为测试者中的最大值,即在方〜c范围内为发音正常 值。参数则根据发音规则和发音运动学原理确定。

采集发音障碍患者的发音数据,将发音障碍患者的各个因素的数据代入,计算隶属 函数A(w),取值在0〜1之间,正常发音时值为1,越接近0则表示发音障碍患者的发音缺 陷程度越严重。

A (%)的取值范围为0〜3,值接近0时为发音越标准,数值越大代表发音障碍患者 〜sum

的缺陷程度越严重。

表7-2为本文提出的模糊综合评价模型对构音障碍患者病理语音发音进行综合评价 的结果。其中专家评判结果是由3位语言测评专家对构音障碍患者发音的主观评价,评 判标准为:能基本发出正确的语音(优秀);能发出接近正确的语音但不准确(良好); 发音可分辨,多数聆听者能听懂(中等);发音不易听懂,但可区别与其他发音(较差); 能发出声音,但发音不正确(劣等)。综合评价模型得分由7.13式计算得出。根据综合评 价模型的得分得到评价结果:优秀(口.0分),良好(>1.0分且口.3分),中等(>1.3 分且口・7分),较差(> 1.7分且三2.0分),劣等(>2.0分)。

表7-2构音障碍患者的病理语音发音评价结果

Table 7-2 Evaluation result of pathological phonetics in patients with dysarthria

本文利用基于F-Score算法的分层模糊综合评价方法,从声学和运动学特征参数出 发,对构音障碍患者的病理发音质量评价指标体系进行研究。实验结果表明综合评价模 型与人工测评保持了良好的一致性。模糊综合评价法将原本只能定性评价的模糊特征因 素进行量化,克服了定性指标的不确定性,从而使构音障碍患者的语音评价具有更清晰 的结果,为病理语音的临床研究提供更具科学性、客观性、可视性的参考价值。

7.5本章小结

本章通过声学特征参数和运动学特征参数建立了一种新的病理语音模糊综合评价 模型。首先采用分层法建立评价指标因素集和评价集,确定模糊隶属度函数,然后提岀 利用F-Score算法确定客观权重系数,并结合专家的主观评判,确定最终的综合权重, 最后利用构建的评估模型对构音障碍患者进行了全面客观的发音质量综合评价。

第八章研究总结与工作展望

病理语音研究是近年来的热门学科,也是信息科学的一个重要研究分支。构音障碍 患者在日常生活交流中存在很多困难,给其学习、工作、生活带来诸多不便。因而构音 障碍患者的病理语音问题已成为越来越受人们关注的全球性健康问题。目前国内对构音 障碍患者如聋哑患者,失语症,帕金森等疾病的病理语音识别及发音评估的研究较为缺 乏,并且以往的普通话病理发音研究主要集中于声学分析,从运动学角度进行的研究较 为少见。

本文从声学特征参数和运动学特征参数入手,采集并建立了病理语音数据集,全面 分析研究了其声学特征参数,同时也深入研究了同步采集的运动学信号数据,根据舌部、 唇部及下颌等主要发音器官的运动数据,探究构音障碍患者与正常人间的发音特性差 异,并根据发音机理,对构音障碍患者的病理语音进行了识别及评价研究。本文旨在全 面客观的判断和评价构音障碍患者的发音问题,为病理语音的临床研究提供更具科学 性、客观性、可视性的参考价值。

8.1研究总结

本论文采用三维电磁发音仪EMAAG501为实验仪器,从声学和运动学特征两个角 度对构音障碍患者语音发音进行系统的分析与研究,探究声学与运动学在发音机理间的 联系,实现多特征融合的病理语音识别和综合评价模型。本文的主要工作内容包含有以 下几个方面:

  • 利用三维电磁发音仪采集汉语普通话病理数据集。其中包含了正常人和构音障 碍患者的声学与运动学特征数据,并对数据进行了预处理和有效性筛选。
  • 从声学角度具体分析及探究了病理发音与正常发音的差异性。分析内容包括传 统声学特征参数:基频、短时平均幅度、嗓音起始时间VOT、Mel频率倒谱系数、元音 发音空间VSA和共振峰;非线性动力学特征参数:关联维数>Hurst参数和最大Lyapunov 指数。
  • 提出了一种基于S变换的耳蜗滤波倒谱系数特征参数的提取方法,该方法既能 适用于病理语音这类非平稳信号特征量的研究,又符合人耳听觉感知特性。实验结果表 明该特征参数在病理语音识别中表现出更高的识别率。
  • 从运动学角度具体分析及探究了病理发音与正常发音的差异性。分析内容包括 运动学特征参数:各发音器官的发音最大位移、最大速度、最大加速度与减速度以及发 音时长;时间空间索引STI特征参数。提出了一种结合声学和运动学的特征参数,即发 音运动起始时间。通过组间实验显著性差异对比,发现AOT参数在构音障碍患者和正 常人之间差异性较大,对病理语音的判断具有良好的区分度,在病理语音识别中也得到 较好的实验结果。论文还进一步探究了声学与运动学参数间存在的相关性。
  • 研究不同病理语音特征以及不同分类算法等对病理语音识别结果的影响,分析 对比了多个分类器包括SVM、RBF神经网络、5决策树以及随机森林RF的识别效 果。提出一种利用改进的核主成分分析KPCA结合判别典型相关性分析DCCA的特征 参数融合优化算法,该方法不仅保留特征参数中重要主成分,去除冗余特征,又补充考 虑了组内样本和组间样本之间的相关性,融合优化后的特征参数识别率较传统组合方法 有明显的提升。
  • 建立了一个对构音障碍患者发音质量的综合评价模型。构建模糊隶属度函数, 建立声学和运动学特征参数模糊集,提出利用F-Score算法确定模型各参数指标的客观 权重系数,并结合主观的专家评判确定最终的综合权重,对发音者的语音质量进行综合 评价。该方法能够较好地解决语音模糊的、难以量化的问题,使得对病理语音的综合评 价更为全面客观。

8.2工作展望

本文对构音障碍患者的病理语音研究进行了上述几点创新性研究工作,取得了一定 的成效,但还处于探索性阶段,展望未来,尚有诸多方面需要进一步完善和深入的研究, 主要体现在以下两个方面:

  • 病理语音数据库的完善。现阶段国内的病理语音数据较缺乏,被试难招募,数 据难采集。虽然本实验室已完成聋哑患者的数据采集,但还需要进一步的完善,例如扩 大被试量,增加构音障碍其他类型包括帕金森病、吞咽障碍患者等。
  • 关于病理语音的声学和运动学的进一步研究。本文较为详细的从声学和运动学 的各个方面分析比较病理语音和正常发音的差异,从生理学方面探究发音器官与病理发 音的联系,但关于声学和运动学特征参数间的潜在联系以及转换关系尚不明确,仍需进 一步的探究。
  • 进一步完善病理语音综合评估模型。本文建立了基于F-Score算法确定综合权 重系数的综合评估模型,将主观和客观评判相结合做综合评价。但在指标因素集的确立 上,仍需研究者们进一步的补充和完善。

参考文献

  • 王培峰•“办好特殊教育”的政治逻辑[J].现代特殊教育,201& (7): 5-6.

⑵ 许家成.新时代特殊教育改革发展的新挑战[J].现代特殊教育,2018,(5):1-1.

⑶ 中国残疾人联合会.中共中央 国务院 关于促进残疾人事业发展的意见[J].内蒙 古政报,2008, (5): 21-23.

  • 汪海萍.拥抱特殊教育发展新时代[J].现代特殊教育,2018,(1): 1-1.
  • Kim J, Lammert A, Ghosh P, et al. Spatial and temporal alignment of multimodal human speech production data: Real time imaging, flesh point tracking and audio [C] // IEEE International Conference on Acoustics, 2013:3637-3641.
  • Narayanan S, Bresch E, Ghosh P K, et al. A Multimodal Real-Time MRI Articulatory Corpus for Speech Research [C] // Interspeech, Conference of the International Speech Communication Association, Florence, Italy, August, 2011:837-840.
  • Ji A, Berry J J, Johnson M T. The Electromagnetic Articulography Mandarin Accented English (EMA-MAE) corpus of acoustic and 3D articulatory kinematic data [C] // IEEE International Conference on Acoustics, 2014:7769-7773.
  • Mili K, Bruce M, Justine G. Electromagnetic articulography assessment of articulatory function in adults with dysarthria following traumatic brain injury [J]. Brain injury : [BI], 2007, 21(6): 601-613.
  • Haworth B, Kearney E, Faloutsos P, et al. Electromagnetic articulography (EMA) for real-time feedback application: computational techniques [J]. Computer Methods in Biomechanics and Biomedical Engineering: Imaging & Visualization, 2018, (3):l-8.
  • 甘德英,胡维平,赵冰心.传统声学特征和非线性特征用于病态嗓音的比较研究[J]. 生物医学工程学杂志,2014, (5): 1149-1154.
  • Son M. Word-boundary and rate effects on upper and lower lip movements in the articulation of the bilabial stop /p/ in Korean* [J]. Phonetics & Speech Sciences, 2018, 10(1):23-31.
  • 彭策,万柏坤•嗓音分析在疾病诊断中的应用[J].生物医学工程学杂志,2007, 24(6):

1419-1422.

  • 吴石耶伊.基于小波特征和多类支持向量机的病态语音识别方法[J].计算机应 用,2008, 28(8): 2097-2100.
  • 李海峰,房春英,马琳,et al.病理语音的特征及其提取与优化[C] //第九次全国中 西医结合诊断学术研讨会论文集,2015:179-183.
  • 黄昭鸣,张蕾,张磊,et al.特殊需要儿童构音语音障碍的评估与治疗[J].中国听力 语言康复科学杂志,2011, (4): 61-64.
  • Steven S, Visar B, Utianski R L, et al. Automatic assessment of vowel space area [J]. Journal of the Acoustical Society of America, 2013, 134(5):477-483.
  • Jafari N, Drinnan M, Mohamadi R, et al. A Comparison of Persian Vowel Production in Hearing-Impaired Children Using a Cochlear Implant and Normal-Hearing Children [J]. Journal of voice : official journal of the Voice Foundation, 2016, 30(3): 340-344.
  • Nicolaidis K, Sfakianaki A. Acoustic characteristics of vowels produced by Greek intelligible speakers with profound hearing impairment II: The influence of stress and context [J]. International journal of speech-language pathology, 2016, 18(4): 388-401.
  • Tseng S C, Kuei K, Tsou P C. Acoustic characteristics of vowels and plosives/affricates of Mandarin-speaking hearing-impaired children [J]. Clinical linguistics & phonetics, 2011, 25(9): 784-803.
  • Baudonck N, Van Lierde K, Dhooge I, et al. A comparison of vowel productions in prelingually deaf children using cochlear implants, severe hearing-impaired children using conventional hearing aids and normal-hearing children [J]. Folia phoniatrica et logopaedica : official organ of the International Association of Logopedics and Phoniatrics, 2011, 63(3): 154-160.
  • Bunta F, Goodin-Mayeda C E, Procter A, et al. Initial Stop Voicing in Bilingual Children With Cochlear Implants and Their Typically Developing Peers With Normal Hearing [J]. J Speech Lang Hear Res, 2016, 59(4): 686-698.
  • Wieland E A, Burnham E B, Kondaurova M, et al. Vowel space characteristics of speech directed to children with and without hearing loss [J]. J Speech Lang Hear Res, 2015, 58(2): 254-267.
  • Man-Tak L, Valter C. The effects of tongue loading and auditory feedback on vowel production [J]. Journal of the Acoustical Society of America, 2011, 129(1): 316-325.
  • Milenkovic P H, Srikanth Y, Vorperian H K, et al. Effects of a curved vocal tract with grid-generated tongue profile on low-order formants [J]. Journal of the Acoustical Society of America, 2010, 127(2): 1002-1003.
  • Jaeger M, Hertrich I, Stattrop U, et al. Speech disorders following severe traumatic brain injury: kinematic analysis of syllable repetitions using electromagnetic articulography [J]. Folia Phoniatrica Et Logopaedica Official Organ of the International Association of Logopedics & Phoniatrics, 2000, 52(4): 187-196.
  • Neto H R, Van L P. A comparison of methods for decoupling tongue and lower lip from jaw movements in 3D articulography [J]. Journal of Speech Language & Hearing Research Jslhr, 2013, 56(5): 1503-1516.
  • Yunusova Y, Green J R, Mefferd A. Accuracy Assessment for AG500, Electromagnetic Articulograph [J]. Journal of Speech Language & Hearing Research, 2009, 52(2): 547-555.
  • Walsh B, Smith A. Basic parameters of articulatory movements and acoustics in individuals with Parkinson's disease [J]. Movement disorders : official journal of the Movement Disorder Society, 2012, 27(7): 843-850.
  • Bartie C J, Goozee J V, Scott D, et al. EMA assessment of tongue-jaw co-ordination during speech in dysarthria following traumatic brain injury [J]. Brain Injury, 2006, 20(5): 529-545.
  • Mefferd A S, Pattee G L, Green J R. Speaking rate effects on articulatory pattern consistency in talkers with mild ALS [J]. Clinical linguistics & phonetics, 2014, 28(11): 799-811.
  • Kuruvilla-Dugdale M, Mefferd A. Spatiotemporal movement variability in ALS: Speaking rate effects on tongue, lower lip, and jaw motor control [J]. Journal of communication disorders, 2017, 67:22-34.
  • Amara F, Fezari M, Bourouba H. An Improved GMM-SVM System based on Distance Metric for Voice Pathology Detection [J]. Applied Mathematics & Information Sciences, 2016, 10(3): 1061-1070.
  • Moberly A C, Lowenstein J H, Nittrouer S. Word Recognition Variability With Cochlear Implants: nPerceptual Attention1' Versus nAuditory Sensitivity" [J]. Ear & Hearing, 2016,

37(1): 14-26.

  • Peng S C, Chatterjee M, Lu N. Acoustic cue integration in speech intonation recognition with cochlear implants [J]. Trends in Amplification, 2012, 16(16): 67-82.
  • Donaldson G S, Rogers C L, Cardenas E S, et al. Vowel identification by cochlear implant users: contributions of static and dynamic spectral cues [J]. Journal of the Acoustical Society of America, 2013, 134(4): 3021.
  • Wang J, Samal A, Rong P, et al. An Optimal Set of Flesh Points on Tongue and Lips for Speech Movement Classification [J]. Journal of Speech Language & Hearing Research Jslhr, 2015, 59(1): 15-26.
  • Novotny M, Rusz J, Cmejla R, et al. Automatic Evaluation of Articulatory Disorders in Parkinson's Disease [J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2014, 22(9): 1366-1378.
  • Murdoch B E, Cheng H Y, Barwood C H S. Electromagnetic articulographic assessment of articulatory kinematics in children, adolescents, and adults [J]. Asia Pacific Journal of Speech Language & Hearing, 2013, 16(2): 68-75.
  • 杭丽滨.听力障碍儿童复合元音发音实验研究[J].中国特殊教育,2005, 3): 12-18.
  • 李宁,周林灿,司博宇.健听儿童与听障儿童韵母/a/及其鼻韵母声学参数的比较 研究[J].中国听力语言康复科学杂志,2012, 10(3): 225-228.
  • 张满彩.病理语音的特征提取与分类研究[D].哈尔滨工业大学,
  • 许远静.病态嗓音特征提取与识别算法的研究[D].广西师范大学,2018.
  • 王厚英.病态嗓音特征参数的优化研究[D].广西师范大学,2015.
  • Manwa L N, Chen Y, Sally W. Lingual Movement during Speech Production by a Speaker of Cantonese with Dysarthria-An Electromagnetic Articulographic Study [J]. Rehabilitation Medicine, 2016, 26(5): 8-16.
  • 胡方.论元音产生中的舌运动机制-以宁波方言为例[C] //中国语音学学术会议暨 语音学前沿问题国际论坛,2012:148-155.
  • 黄典.基于生理发音模型的中文发音可视化技术研究[D],天津大学,
  • 周强,张晓俊,顾济华,et al.采用差异度的多参数声带疾病嗓音识别方法[J].电子 器件,2013, 36(3): 309-312.
  • 常静雅,张晓俊,顾玲玲,et al.小波域能量谱和非线性降维的病理嗓音识别[J].计 算机工程与应用,2017, 53(2): 166-171.
  • 陈琦,听障儿童唇运动障碍的特征研究[J].科教文汇(上旬刊),2016, (3): 83-86.
  • 肖彦,冯勇强,赵庆卫,et al.腭裂语音中齿龈塞音的声门代偿现象声学分析与判定 [J].声学学报,2015, (2): 285-293.
  • 王文娟,杨震.基于语音压缩感知观测序列非重构的清浊音判别法[J].数据采集与 处理,2013, 28(3): 274-279.
  • 李胜利.构音障碍的评价[J].中国康复,1993, (2): 84-86.
  • 李胜利,张庆苏.构音障碍的发音、言语表现与治疗[J].中国康复理论与实践,2003, 9(1): 62-64.
  • Rudzicz F. The TORGO database of acoustic and articulatory speech from speakers with dysarthria [J]. Language Resources & Evaluation, 2012, 46(4): 523-541.
  • Martinez D, Lleida E, Ortega A, et al. Voice Pathology Detection on the Saarbriicken Voice Database with Calibration and Fusion of Scores Using MultiFocal Toolkit [M]// Advances in Speech and Language Technologies for Iberian Languages, 2012.
  • Douglascowie E, Cowie R, Schroder M. ISC A Archive A NEW EMOTION DATABASE: CONSIDERATIONS, SOURCES AND SCOPE [C] // Isca Workshop on Speech & Emotion, 2013:1-6.
  • Ji A, Berry J J, Johnson M T. The Electromagnetic Articulography Mandarin Accented English (EMA-MAE) corpus of acoustic and 3D articulatory kinematic data [C] // IEEE International Conference on Acoustics, Speech and Signal Processing, 2014:7719-7723.
  • Meenakshi N, Yarra C, Yamini B K, et al. Comparison of speech quality with and without sensors in electromagnetic articulograph AG 501 recording [J]. 2014:935-939.
  • Munhall K G, Vatikiotis - Bateson E, Tohkura Y. X - ray film database for speech research [J]. Journal of the Acoustical Society of America, 1994, 95(2): 2822-2822.
  • Davidson L. Comparing tongue shapes from ultrasound imaging using smoothing spline analysis of variance [J]. Journal of the Acoustical Society of America, 2006, 120(1): 407-415.
  • Narayanan S, Bresch E, Ghosh P K, et al. A Multimodal Real-Time MRI Articulatory Corpus for Speech Research [C] // INTERSPEECH 2011, Conference of the International Speech Communication Association, Florence, Italy, August, 2011: 837-840.
  • Justine V. Goozee B E M, Deborah G. Theodoros, Peter D. Stokes. Kinematic analysis of tongue movements in dysarthria following traumatic brain injury using electromagnetic articulography [J]. Brain Injury, 2000, 14(2): 153-174.
  • 许辉.新疆维吾尔族腭裂患者术后病理性语音特点的研究[D];新疆医科大学,
  • 范萍.汉语帕金森症患者语音的声学特征分析[D].南京师范大学,2017.
  • 鲁茸江才.藏汉双语多模态生理语音数据库的建立和语音特征分析[D].天津大学,
  • 李培.聋人和听人汉语视觉词汇识别中语音加工的对比研究[D].江苏师范大学,

2014.

  • 林旭赞.基于声音的病例特征提取与分析[D].哈尔滨工业大学,
  • 杜朦旭.感冒病人嗓音的特征提取与识别研究[D].浙江大学,
  • 于燕平,胡维平.病态嗓音特征的神经网络选择[J].中国生物医学工程学报,2009, 28(3): 327-331.
  • 张玲华,郑宝玉,杨震.基于LPC分析的语音特征参数研究及其在说话人识别中的 应用[J].南京邮电大学学报(自然科学版),2005, 25(6): 1-6.
  • Bhattacharjee U. A Comparative Study Of LPCC And MFCC Features For The Recognition Of Assamese Phonemes [J]. 2013, 2(l):l-6.
  • 莫丽花,周孝进,张晓俊,et al.基于LPCC和MFCC参数的病理嗓音识别研究[J]. 通信技术,2012, 45(1): 87-89.
  • 甘德英.基于元音/"与/i/的病态嗓音识别与研究[D].广西师范大学,
  • 张雪英.数字语音处理及MATLAB仿真[M].电子工业出版社,
  • Kilic M A, Ogut F, Dursun G, et al. The effects of vowels on voice perturbation measures [J]. Journal of Voice, 2004, 18(3): 318-324.
  • 张晓俊,陈莉,陶金,et al.病理嗓音基音频率检测方法研究[J].通信技术,2013, (10): 100-102.
  • Yu V Y, De Nil L F, Pang E W. Effects of Age, Sex and Syllable Number on Voice Onset Time: Evidence from Children's Voiceless Aspirated Stops [J]. Language and speech,
  • 58(Pt 2): 152-167.
  • Fischer E, Goberman A M. Voice onset time in Parkinson disease [J]. Journal of communication disorders, 2010, 43(1): 21-34.
  • Hansen J H L, Gray S S, Kim W. Automatic voice onset time detection for unvoiced stops (/p/,/t/,/k/) with application to accent classification [J]. Speech Communication, 2010, 52(10): 7力-789.
  • Lane H, Wozniak J, Matthies M, et al. Phonemic resetting versus postural adjustments in the speech of cochlear implant users: An exploration of voice - onset time [J]. Journal of the Acoustical Society of America, 1995, 98(6): 3096.
  • Waldstein R S. Effects of postlingual deafness on speech production: implications for the role of auditory feedback [J]. Journal of the Acoustical Society of America, 1990, 88(5): 2099-2114.
  • Tartter V C, Chute P M, Hellman S A. The speech of a postlingually deafened teenager during the first year of use of a multichannel cochlear implant [J]. Journal of the Acoustical Society of America, 1989, 86(6): 2113.
  • Fang Z, Guoliang Z, Zhanjiang S. Comparison of Different Implementations of MFCC [J]. Journal of Computer Science & Technology, 2001, 16(6): 582-589.
  • 岳倩倩,周萍,景新幸.基于非线性幕函数的听觉特征提取算法研究[J].微电子学 与计算机,2015,(6): 163-166.
  • 张万里,刘桥,Zhangwan-Li, et al. Mel频率倒谱系数提取及其在声纹识别中的作用 [J].贵州大学学报(自然科学版),2005, 22(2): 207-210.
  • Huang N E, Zheng S, Long S R, et al. The Empirical Mode Decomposition and the Hilbert Spectrum for Nonlinear and Non-Stationary Time Series Analysis [J]. Proceedings Mathematical Physical & Engineering Sciences, 1998, 454(1971): 903-995.
  • Huang N E. New method for nonlinear and nonstationary time series analysis: empirical mode decomposition and Hilbert spectral analysis [J]. Proceedings of SPIE - The International Society for Optical Engineering, 2000, 4056:197-209.
  • Flandrin P, Rilling G, Goncalves P. Empirical mode decomposition as a filter bank [J]. IEEE Signal Processing Letters, 2004, 11(2): 112-114.
  • Huang H, Chen X X. Speech formant frequency estimation based on Hilbert-Huang

transform [J]. Journal of Zhejiang University, 2005, 118(3): 1929-1929.

  • Teager H M. Some Observations on Oral Air Flow during Phonation [J]. IEEE Transactions on Acoustics Speech & Signal Processing, 2003, 28(5): 599-601.
  • 孟庆芳,彭玉华.混沌时间序列改进的加权一阶局域预测法[J].计算机工程与应用, 2007, 43(35): 61-64.
  • Takens F. Detecting strange attractors in turbulence [M]. Lecture Notes in Mathematics, 1981.
  • Packard N H, Crutchfield J P, Farmer J D, et al. Geometry from a Time Series [J]. Physical Review Letters, 1980, 45(9): 712-716.
  • Procaccia I. Measuring the strangeness of strange attractors [J]. Physica D Nonlinear Phenomena, 1983, 9(1): 189-208.
  • E., R.P.Black, Y.M.Samayka. Long-Term Storage: An Experimental Case Study [J]. 1965.
  • Pincus S M. Approximate entropy as a measure of system complexity [J]. Proceedings of the National Academy of Sciences, 1991, 88(6): 2297-2301.
  • Zbancioc M D, Feraru M. Using the Lyapunov exponent from cepstral coefficients for automatic emotion recognition [C] // International Conference & Exposition on Electrical & Power Engineering, 2014: 110-113.
  • 高扬.耳蜗滤波器倒谱特征在语音识别中的应用[D].太原理工大学,2011.
  • 李作强,高勇.基于CFCC和相位信息的鲁棒性说话人辨识[J].计算机工程与应用, 2015,51(17):228-232.
  • Patel T B, Patil H A. Cochlear Filter and Instantaneous Frequency Based Features for Spoofed Speech Detection [J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(4):618-631.
  • Bandela S R, Kumar T K. Stressed speech emotion recognition using feature fusion of teager energy operator and MFCC [C] // International Conference on Computing, 2017:1-5.
  • Stockwell R G, Mansinha L, Lowe R P. Localization of the complex spectrum: the S transform [J]. IEEE Transactions on Signal Processing, 2002, 44(4): 998-1001.
  • Ventosa, Simon, Schimmel, et al. The S-Transform From a Wavelet Point of View [J].

IEEE Transactions on Signal Processing, 2008, 56(7): 2771-2780.

  • Kazemi K, Amirian M, Dehghani M J. The S-transform using a new window to improve frequency and time resolutions [J]. Signal Image & Video Processing, 2013, 8(3): 533-541.
  • Qi L. An auditory-based transfrom for audio signal processing [C] // IEEE Workshop on Applications of Signal Processing to Audio & Acoustics, 2009: 181-184.
  • Qi L, Yan H. An Auditory-Based Feature Extraction Algorithm for Robust Speaker Identification Under Mismatched Conditions [J]. IEEE Transactions on Audio Speech & Language Processing, 2011, 19(6): 1791-1801.
  • Nakagawa S, Asakawa K, Wang L. Speaker recognition by combining MFCC and phase information [J]. Ieice Transinf & Syst, 2010, 93(9): 2397-2406.
  • Jing-Jiao L I. TEO-CFCC Characteristic Parameter Extraction Method for Speaker Recognition in Noisy Environments [J]. Computer Science, 2012, 89(2): 118-121.
  • 李晶皎,安冬,杨丹,et al.噪声环境下说话人识别的TEO-CFCC特征参数提取方法 [J].计算机科学,2012, 39(12): 195-197.
  • Kaiser J F. On a simple algorithm to calculate the "energy* of a signal [C] // International Conference on Acoustics, 2002: 381-384.
  • 王茂蓉,周萍,景新幸.MFCC和短时TEO能量的混合参数应用于说话人识别[J]. 微电子学与计算机,2016, 33(1): 144-148.
  • 李杰,周萍,杜志然.短时TEO能量在带噪语音端点检测中的应用[J].计算机工 程与应用,2013, 49(12): 144-147.
  • Lindblom B, Sundberg J. Acoustical Consequences of Lip, Tongue, Jaw, and Larynx Movement [J]. The Journal of the Acoustical Society of America, 1970, 48(1A): 120-120.
  • Mahmoudi Z, Rahati S, Ghasemi M M, et al. Classification of voice disorder in children with cochlear implantation and hearing aid using multiple classifier fusion [J]. Biomedical Engineering Online, 2011, 10(1): 3-18.
  • Mefferd A S. Associations between tongue movement pattern consistency and formant movement pattern consistency in response to speech behavioral modifications [J]. The Journal of the Acoustical Society of America, 2016, 140(5): 3728-3737.
  • Murdoch B E, Hei-Yan C, Goozee J V. Developmental changes in the variability of tongue and lip movements during speech from childhood to adulthood: an EMA study [J]. Clinical linguistics & phonetics, 2012, 26(3): 216-231.
  • Ozbic M, Kogovsek D. An acoustic comparison of formant frequencies in individuals with normal hearing, profound and severe hearing impairment [J]. Investigationes Linguisticae, 2008:16-20.
  • Riely R R, Smith A. Speech movements do not scale by orofacial structure size [J]. Journal of applied physiology, 2003, 94(6): 2119-2126.
  • Smith A, Goffman L, Zelaznik H N, et al. Spatiotemporal stability and patterning of speech movement sequences [J]. Experimental Brain Research, 1995, 104(3): 493-501.
  • Smith A, Johnson M, Mcgillem C, et al. On the assessment of stability and patterning of speech movements [J]. Journal of Speech Language & Hearing Research Jslhr, 2000, 43(1): 277-286.
  • Saxena M, Behari M, Kumaran S S, et al. Assessing speech dysfunction using BOLD and acoustic analysis in parkinsonism [J]. Parkinsonism & related disorders, 2014, 20(8): 855-861.
  • Brooker B H, Donald M W. Contribution of the speech musculature to apparent human EEG asymmetries prior to vocalization [J]. Brain & Language, 1980, 9(2): 226-245.
  • Ouyang G, Sommer W, Zhou C, et al. Articulation Artifacts During Overt Language Production in Event-Related Brain Potentials: Description and Correction [J]. Brain topography, 2016, 29(6): 1-23.
  • 张文彤,董伟.SPSS统计分析高级教程[M].高等教育出版社,2013.
  • Grigos M I. Changes in articulator movement variability during phonemic development: a longitudinal study [J]. Journal of Speech Language & Hearing Research Jslhr, 2009, 52(1): 164-177.
  • Cortes C, Vapnik V. Support-vector networks [J]. Machine Learning, 1995, 20(3): 273-297.
  • 汪海燕,黎建辉,杨风雷.支持向量机理论及算法研究综述[J].计算机应用研究, 2014,31(5): 1281-1286.
  • 车潇炜,孔宪喻,刘艳芳,et al.基于支持向量机的渤海富营养化快速测评技术研究

[J].中国海洋大学学报:自然科学版,2017, 47(7):72-78.

  • 朱文静,白静.一种混沌人工鱼群算法对SVM参数的优化及应用[J].微电子学与 计算机,2016, 33(3): 89-93.
  • Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks [C] // International Conference on Neural Information Processing Systems, 2012:1-9.
  • 夏妍妍,黄健,尹丽华.基于径向基函数神经网络的语音识别[J].大连海事大学学 报,2007, 33(sl): 157-159.
  • Haykin S. Neural networks: a comprehensive foundation [J]. Neural Networks A Comprehensive Foundation, 1994: 71-80.
  • Quinlan J R. C4.5: Programs for Machine Learning [M]. 1992.
  • 于莉.常用的决策树生成算法分析[J].天津商务职业学院学报,2008, 10(2):21-22.
  • Cutler A, Cutler D R, Stevens J R. Random Forests [J]. Machine Learning, 2004, 45(1): 157-176.
  • 刘进华.基于随机森林的语音情感识别研究[D],华南理工大学,2013.
  • Wang J, Kothalkar P V, Cao B, et al. Towards Automatic Detection of Amyotrophic Lateral Sclerosis from Speech Acoustic and Articulatory Samples [C] // Interspeech, 2016:1195-1199.
  • 王全才.随机森林特征选择[D].大连理工大学,2011.
  • Lee, Yoo C, Lee, et al. Fault detection of batch processes using multiway kernel principal component analysis [J]. Computers & Chemical Engineering, 2004, 28(9): 1837-1847.
  • Qi K, Kang W, Huang B, et al. Kernel optimisation for KPCA based on Gaussianity estimation [J]. International Journal of Bio-Inspired Computation, 2014, 6(2): 91-107.
  • 蒋海华,胡斌.基于PCA和SVM的普通话语音情感识别[J].计算机科学,2015, 42(11):270-273.
  • Hotelling H. Relations Between Two Sets of Variates [J]. Biometrika, 1936, 28(3/4): 321-377.
  • Quansen, Zeng, Shenggen, et al. A new method of feature fusion and its application in image recognition [J]. Pattern Recognition, 2005, 38(12): 2437-2448.
  • Gou Z, Fyfe C. A canonical correlation neural network for multicollinearity and functional data [J]. Neural Networks the Official Journal of the International Neural Network Society, 2004, 17(2): 285-293.
  • Hardoon D R, Szedmak S, Shawetaylor J. Canonical Correlation Analysis: An Overview with Application to Learning Methods [J]. Neural Computation, 2004, 16(12): 2639-2664.
  • 张跃.模糊数学方法及其应用[J].煤炭工业出版社,1992,
  • 刘丹平.高校教师信息技术应用能力模糊综合评价模型[J].科技管理研究,2009, (10): 267-268.
  • 张吉军.模糊层次分析法(FAHP) [J],模糊系统与数学,2000, 14(2): 80-88.
  • 王欣杰,李海峰,马琳,et al.基于F-score的大数据公共空间模式选择方法[J].燕 山大学学报,2014, (5): 432-439.
  • 谢娟英 王 蒋,基于改进的F-score与支持向量机的特征选择方法[J].计算机 应用,2010, 30(4): 993-996.
  • 章穗张迟.基于嫡权法的科学技术评价模型及其实证研究[J].管理学报,2010, 7(1): 34-42.
  • 周荫清.信息理论基础(第3版)[M].北京航空航天大学出版社,
  • Chen Y W, Lin C J. Combining SVMs with Various Feature Selection Strategies [J]. Studies in