病态嗓音特征提取及识别研究论文

2020年9月22日14:52:41病态嗓音特征提取及识别研究论文已关闭评论

病态嗓音特征提取及识别研究论文

摘要

嗓音是人类进行沟通与交流的重要工具,嗓音好坏对人们的言语表达有直接的影响。 声带作为发声系统的重要组成部分,其病变是导致嗓音出现问题的重要原因。采用声学分 析技术对病理嗓音信号进行分析和研究,可以实现对嗓音质量的客观评估,对喉部疾病的 诊断和治疗具有临床指导意义。随着研究的深入,临床上对声带类嗓音疾病细分类的研究 已成为病理性嗓音检测的热点。随着计算机处理能力的提升,深度学习在语音识别领域取 得了显著效果。本文针对声带类嗓音疾病的分类问题和利用卷积神经网络实现嗓音疾病的 分类问题上进行了相关研究,主要包括以下三个方面的内容。

  1. 本文针对声带类疾病分类时参数选择存在的局限性,从非线性和统计学角度出发, 提出了小波包多尺度分析的嗓音特征提取方法,以提高声带类嗓音疾病的识别率。首先, 使用小波包技术将原始嗓音信号进行分解,得到不同频段的子信号,然后从不同频带中提 取非线性特征Hurst指数、2-RSyi嫡、计盒维数和吸引子用以评估每个频带在检测和分类 病理嗓音过程中的贡献。将提取的多尺度特征进行组合,使用支持向量机(Support Vector Machine, SVM)对不同数据库的正常和病态嗓音信号进行二分类识别,其中在MEEI数据 库、自建临床数据库、SVD数据库得到的平均识别率分别为15%, 97.87%, 96.76%, 最高识别率均为100%;然后在MEEI数据库和SVD数据库上进行正常、声带麻痹声带非 麻痹三种嗓音信号的识别,在两个数据库上得到的平均识别率分别为98.32%, 92.89%o实 验结果表明,声带类嗓音疾病经过小波包多尺度分析后提取的特征能够有效地提高识别率。
  2. 针对传统机器学习算法在病态嗓音分类过程中,分类准确度取决于提取特征的有效 性这一局限性,提出了使用延迟时间和卷积神经网络算法对正常和病态嗓音信号进行分类 识别。利用语音信号自身的混沌特性,使用延迟时间参数将一维语音信号转化为二维矩阵 M *2的形式,基于LeNet-5网络模型,通过Matlab平台搭建具有3个卷积层的神经网络模 型实现正常和病态嗓音信号的分类识别,在MEEI数据库和自建临床数据库上进行嗓音二 分类识别时,平均识别率分别为64%和94.26%o实验结果表明,在将一维嗓音信号转 换为二维矩阵时,引入延迟时间特征参数的有效性。为接下来的实验中引入相空间理论做 铺垫。
  3. 针对非线性动力学特征能够有效的描述正常和病态嗓音信号的声学特性,提出了将 相空间重构理论引入到嗓音信号的特征提取中,利用延迟时间和嵌入维数理论实现对正常 和病态嗓音信号的相空间重构,从而获得嗓音信号的重构轨迹图。根据三视图的原理分别 对重构后的相图进行(x(n),x(n + T))(x(n),x(n+ 2T))、(x(n + T)fx(n + 2T))三个方向 的投影,将一维语音信号转化为二维图像,将得到的三个方向的投影作为卷积神经网络 RBG三通道的输入,禾U用搭建VGG-like卷积神经实现病理嗓音信号的分类。在正常和病 态嗓音信号二分类识别问题上,在MEEL自建临床和SVD三个数据库上平均识别率分别 为42%、95.88%和97.30%;在对MEEI数据库和SVD数据库中的正常、声带麻痹和声 带非麻痹三类嗓音进行测试时,平均识别率分别为96.04%和92.27%。实验结果表明,该 方法具有较高的分类识别率和良好的鲁棒性,对正常和病理嗓音信号的识别具有一定的普 遍适用性。

关键字:病态嗓音;小波包变换;支持向量机;相空间重构;卷积神经网络

Research on Features Extraction and Recognition for Pathological Voice

Graduate Student: Xuehui Zhang Tutor: Weiping Hu Grade: 2016

Major: Electronic Science and Technology Research Direction: Voice Processing

Abstract

Voice is an important tool for human communication. The quality of the voice has a direct impact on people's speech expression. The vocal fold is an important part of the vocal system, and its pathology is an important cause of problems with the voice. By using acoustic analysis technology to analyze and study pathological signals, objective assessment of the quality of voice can be achieved, which has clinical guiding significance for the diagnosis and treatment of laryngeal diseases. With the deepening of research, clinical research on subdivision of vocal cord diseases has become a hot spot in pathological voice detection. With the improvement of computer processing ability, deep learning has achieved remarkable results in the field of speech recognition. This paper mainly studies the classification of vocal fold diseases and using the convolutional neural networks to identify the pathological voice. It mainly includes the following three aspects.

  1. In this paper, the limitations of parameter selection in the classification of vocal fold diseases, from the perspective of nonlinearity and statistics, a method for exacting voice features using wavelet packet multi-scale analysis is proposed to improve the recognition rate of vocal fold diseases. Firstly, the original voice signal is decomposed into sub-signals of different frequency bands by using wavelet packet technique. Then the nonlinear characteristics Hurst parameter, 2- Renyi entropy, box-counting dimension and attractor are extracted from different frequency bands to evaluate the contribution of each frequency band in detecting and classifying pathological voices. Finally, the extracted multi-scale features are combined, and SVM is used to classify the normal and pathological voice of the different databases. The average recognition rates in the MEEI database, self-built clinical database, and SVD database are 99.15%, 97.87%, and 96.76%, and the highest recognition rate is 100%; in the MEEI database and SVD database, the normal, vocal fold paralysis and vocal fold non-paralysis are identified, the average recognition rates obtained on the two databases are 98.32% and 92.89%. The experimental results show that the recognition rate of vocal fold diseases can be effectively improved by extracting features after multi-scale analysis of wavelet packet.
  2. In the process of pathological voice classification, the classification accuracy of the traditional machine learning algorithm depends on the validity of the extracted features. In order to solve this problem, the delay time and convolutional neural network are proposed to classify the

hinormal and pathological voice. Based on the chaotic characteristics of the signal, the onedimensional speech signals are transformed into two-dimensional matrix M*N by using the delay time parameter, based on the LeNet-5 network model, a neural network model with three convolution layers is built on the platform of Matlab to realize the classification of the normal and pathological voice. The average recognition rate is 94.64% and 94.26% when the voice classification is performed on the MEEI database and the clinical database. The experimental results show that the effectiveness of introducing the delay time characteristic parameter when converting the one-dimensional signal into a two-dimensional matrix. Pave the way for the introduction of phase space theory in the next experiment.

  1. Nonlinear dynamics characteristics can effectively describe the acoustic characteristics of normal and pathological voice. Phase space reconstruction theory is introduced into the feature extraction of voice signals. Phase space reconstruction of normal and sick voice signals is realized by using delay time and embedding dimension theory, and the reconstruction trajectory of voice signals is obtained. According to the principle of the three views, the reconstructed phase diagrams are projected in three directions x(n+ T)), x(n + 2T)), (x(n + T), x(n + 2T)). The one-dimensional speech signal is transformed into two-dimensional image, and the projection of three directions is used as the input of three channels of convolution neural network RBG. The normal and pathological voice is classified by constructing VGG-like convolution nerve. The average recognition rates of normal and pathological voice are 99.42%, 95.88% and 97.30% in MEEI, self-built clinical and SVD databases. The average recognition rates are 96.04% and 92.27% for normal, vocal fold paralysis and vocal fold non-paralysis voice in MEEI database and SVD database. The experimental results show that the method has high classification recognition rate and good robustness, and has certain universal applicability for the recognition of the normal and pathological voice.

Keywords: Pathological Voice; Wavelet Packet Transform; Features Extraction; Support Vector Machine; Phase Reconstitution; Convolutional Neural Network

第1章绪论

1.1课题研究的背景及意义

在日常生活中,嗓音是人与人之间进行信息传递、社交活动和情感交流必不可少的工 具。嗓音的产生过程比较复杂,主要是通过肺部呼出的气流引起声带有规律的振动,从而 产生一系列的声波,最后通过口鼻的辐射产生供人类进行沟通交流的声音。因而,嗓音好 坏对人们的言语表达有直接的影响。随着人类社会交流活动的增加和生活习惯的改变,嗓 音疾病的发生率越来越高。据统计,世界上大约有3%-9%的人都会有不同程度的嗓音疾病 或嗓音疾病症状,对于演说家、主持人、播音员和教师等一些用嗓频繁的专业人士具有更 高的发病率。从健康科学的角度来看,嗓音疾病问题能够大大降低人类的生活质量和工作 质量,因此科研工作者越来越重视对言语嗓音障碍的早期诊断和治疗⑴。

目前,在对嗓音疾病的检测上,大致可以总结以下三种诊断方法⑵:第一类是电子喉 镜检测法,主要用来确定喉部病变的位置;第二类是喉肌电图法,用来诊断喉部肌肉、声 带病变等;第三类是利用语音信号声学参数的诊断方法,当嗓音发生病变时,正常和病态 嗓音信号的声学参数会产生一定的偏差,科研工作者通过声音采集设备采集患者发出的声 音,然后对采集的声音通过计算机进行预处理,提取能够有效区分正常和病态嗓音的声学 特征,将提取的特征输入到分类器中用以评估嗓音的质量。前两种嗓音疾病检测方法,主 要依赖于医生的临床经验和主观判断,无法对病变做出早期诊断,甚至可能耽误最佳的治 疗时间。而基于声学检测法是根据数字信号处理技术在语音信号方面的研究,而产生的一 种对嗓音疾病的无创诊断技术,它是根据患者发出的声音对嗓音质量进行客观性的评估, 该方法能够有效地避免患者在进行喉镜检查时对喉部带来二次伤害,可以减轻患者的痛苦 以及减轻患者就诊的医疗费用,是医生在对患者进行嗓音疾病诊断的一种有效的辅助工具。 因此,临床医学在对嗓音疾病进行诊断时,基于声学分析方法实现对病态嗓音的诊断已经 成为智能医疗的一个热点。

本课题是在国家自然科学基金项目(No.61362003)下进行研究工作的。

1.2课题研究的国内外现状

为了解决临床上对嗓音疾病诊断能力的不足,经过病理学嗓音专家的不断努力,探索 出了大量的具有较强分类能力的特征参数和识别机,开发了一种自动语音识别框架来区分 正常和病态嗓音,用来完成嗓音的无痛无损伤自动检测。还可以通过声学分析方法实现对 嗓音疾病的早期诊断、手术后嗓音康复情况的评估等。按照时间发展顺序,对于病理嗓音 自动检测的研究主要划分为以下三个阶段。

第一阶段开始于20世纪50-60年代,研究者的工作主要是对喉部发声机理、喉部疾病 病变等的研究以及对声学参数的探究。1955年,Arnold在对声带病变的研究中使用声学分 析的方法⑶。1959年,文献⑷对嗓音疾病引起声音嘶哑的严重程度进行了研究。自此研究 者开始将声学分析法引入到病态嗓音的识别研究中。1973年,文献[5]对早期嗓音疾病的检 测结果进行了评估,文章指出:基频参数、振幅扰动和频率扰动能够反映出嗓音病变的病 理特性。除此之外,越来越多的声学参数被定义使用,用来完成对嗓音疾病的检测。

第二阶段为20世纪70-80年代,随着病态嗓音识别理论的日趋成熟,病理嗓音学专家 开始将病理嗓音的声学研究成果逐渐应用于临床医学,这标志着病态嗓音识别系统的雏形 初步形成。这一时期,研究者不断提出新的嗓音声学参数和研究思路应用于嗓音疾病的检 测中。文献⑹使用短时平稳技术实现嗓音疾病的检测,文献⑺将嗓音信号视为非线性系统 完成嗓音疾病的分析。这一阶段,工作的突破点一方面在于对嗓音发声及病变机制的研究, 另一方面是使用新的声学参数对正常和病态嗓音进行分类识别。

第三阶段为20世纪90年代至今,随着声学参数的不断丰富,基于计算机自动病理嗓 音识别系统的识别率仍在不断提高。期间,在分类方面表现出色的模式识别算法应运而生, 并被大量应用于语音识别中。如高斯混合模5^[8][9](Gaussian Mixture Model, GMM)、隐马尔 科夫模型(Hidden Markov Model, HMM),人工神经网络[10](Artificial Neural Network, ANN) 及支持向量机[11](Support Vector Machine, SVM)等都表现出较好的效果。随着大数据人工智 能时代的来临,适用于大样本的识别机在分类任务上有着岀色的表现,随机森林(Random Forest, RF)[12]和深度神经网络(Deep Neural Network, DNN)[13]等分类器也逐渐应用到病理 嗓音的分类任务中。为了进一步提高正常和病态嗓音以及声带病理嗓音之间的识别率,研 究人员不断地探索各种特征(线性或非线性),以及在提取特征之前对嗓音信号进行预处理, 使其足够表征嗓音信号的病理特点,便于更有效地检测嗓音疾病。

通过对嗓音信号提取特征参数并进行模式识别,可以完成对病理嗓音的检测和识别。 病理嗓音和正常嗓音相比,其传统特征参数和非线性特征参数均有一定的差别,如何提取 能够有效表达病理嗓音特征的声学参数或参数组是研究的重点。随着研究的深入,嗓音研 究者发现声带作为重要的发声器官,其病变是导致发声问题的主要原因。自动病理语音检 测系统仅实现对嗓音疾病二分类的检测已经不能满足临床上对嗓音疾病诊断的需求,对各 种声带类嗓音疾病的分类研究成为当今科研工作者研究的重点。表1-1, 1-2分别列出了近 些年国内外科研工作者对病态嗓音二分类识别和声带类病理嗓音细分类识别研究的进展。

表1-1近几年国内外病理嗓音二分类识别研究进展

年份 第一作者 数据库 (正常+病态) 特征参数 识别机 平均识 别率 (%)
2009 于燕平[14] 242+243 爛系数 GMM 95.06
2009 Patricia[⑸ 85+57 混沌 BP 82.47
53+173 混沌 BP 99.69
2012 高俊芬a】 78+73 Hurst参数、相关维 数、最大李氏指数等 SVM 97.30
2013 C.M. Travieso[17] 36+36

(MEEI)

非线性动力学特征 SVM 98.21
2014 G. Muhammad[18] 53+173 MPEG-7音频特征 SVM 99.99
2014 Daria Panek[19] 425+425

255+255

基音频率,MFCC,共 振峰 K-means 81.4

100

2015 王厚英[20] 78+73 Hurst参数、模糊爛 等 SVM 91.85
2016 曾颖[21] 78+73 计盒维、Hurst参数 等 SVM 93.92
2017 常雅静皿] 56+101

(MEEI)

动态加权局部线性嵌 入 GMM-SVM 97.45
2017 G.Muhammad[23] 53+173 隔行导数模型 SVM 99.38
(262+244)

SVD

隔行导数模型 SVM 93.30
2017 A Alnasheri[24] 53+101

(MEEI)

相关函数和慵 SVM 99.96
2018 SH Fang[25] 53+173 MFCC DNN 99.32
2018 许远静[26】 53+173 特征组合 RF 99.67
78+73 特征组合 RF 96.08

(表中53+173为MEEI数据库的一个子集;其余未标明的是各自使用的自建临床数据库;MFCC: Mel-Frequency Cepstral Coefficient, Mel 频域倒谱系数)

表1-2近几年国内外病理嗓音细分类识别研究进展

年份 第一作者 数据库 特征参数 识别机 平均识别率 (%)
2015 袁悦旳 100正常+89息肉

+91 囊肿(MEEI)

边际谱和 SVM 90.96
2015 Leonardo A.【28] 12小结+23麻痹+11 正常 MFCC+声门参 数 SVM 97.2
2016 Ghulam M.[29] 9囊肿+23麻痹+11 息肉(MEEI) 声道模型参数 SVM 94.1
6囊肿+212麻痹+45 息肉(SVD) 声道模型参数 SVM 99.6
2017 Ghulam M.[30] 10囊肿+70麻痹+15 息肉(MEEI) 声门激励信号 隔行导数 SVM 95.97
13囊肿+32麻痹+30 息肉(AVDP) 声门激励信号 隔行导数 SVM 95.9
6囊肿+194麻痹+44 息肉(SVD) 声门激励信号 隔行导数 SVM 96.83
2017 Mohamed

DAU

40正常+40痉挛+40 麻痹(SVD) MFCC+抖动+ 闪烁 NBN 90

(表中:SVD: Saarbruecken Voice Database,德国萨尔布吕肯公开数据库;AVDP: Arabic Voice Pathology Database,阿拉伯语音病理数据库;NBN: Naive Bayesian Network,朴素贝叶斯网络)

从表1-1中可以看出,研究者将各种语音信号处理技术和识别机应于病态嗓音的二分 类检测中,最好的识别结果已经可以达到99.99%o从识别结果中也不难看出,在同样的数 据库上,使用不同的特征和不同的识别算法,得到的识别结果会有一定的差异。特别的, 从文献[15]可以清晰的看到,当作者使用完全一致的研究方法时,在不同的数据库上进行 测试,得到的识别结果相差甚远。其中,在MEEI数据库上的识别率达到99.69%,而在实 验室自建的数据库上识别率却仅有82.47%,说明在不同数据库上进行实验时,得到的识别 结果仅能提供参考,并不能进行严格的对比分析。从表1-2中看出,目前,对于声带类嗓 音疾病的识别,研究者主要关注于声带麻痹、声带小结和声带息肉等的识别。这几种嗓音 疾病都是临床医学比较常见的,并且在声学检测上不容易区分,因此对声带类疾病的研究 己成为病理性嗓音检测的热点。然而,国内外对于声带类病理嗓音细分类的研究相对较少, 一方面是目前的数据库中,只有MEEI数据库的样本被标注上各类疾病、患者年龄等信息, 但它并不是公开的免费数据库,需要花费大量的金钱购买才可以使用。而对于自建的临床 数据库,嗓音病理学专家对采集到的声音信号进行标注是一件比较费时费力的事情。另外, 当嗓音疾病发生病变时,声带类嗓音疾病特征又具有很大的相似性,这也给研究工作带来 了一定的困难。

近年来,随着大数据时代的来临,以及计算机运算能力的快速提升,深度学习被大量 应用于图像识别和语音识别领域。由于其强大的特征提取和分类能力,受到广大研究者的 青睐。在2017和2018年,在识别机方面,研究者逐渐将深度神经网络(Deep Neural Networks, DNN)和卷积神经网络(Convolutional Neural Network, CNN)应用在病态嗓音识别中。文献[32] 直接对SVD数据库的原始音频信号进行分帧,使用64ms的段特征,输入到DNN和长短 时记忆网络(Long Short-term Memory Networks, LSTM)中对正常和病态嗓音信号进行分类, 得到的识别率为68.08%;文献[25]提取语音信号的MFCC特征,输入到DNN网络中,在 MEEI数据库进行正常和病态嗓音信号的二分类识别,识别率为99.32%;文献[33]在SVD 数据库提取光谱图特征,使用CNN网络进行分类,识别率为71%;文献[34]在MEEI数据 库提取MFCC谱图,输入到CNN进行分类,识别率为93.30%0由于数据库获取难度的限 制,深度学习在病态嗓音检测方面并没有得到快速发展,但是考虑到其理论意义和使用价 值,深度学习在分类病理嗓音上仍有一定的研究价值。

1.3实验数据来源

任何人工智能的应用领域都离不开数据库的支持,病理嗓音数据库的好坏对实验的分 类效果产生直接的影响。目前,病理嗓音数据库并没有统一的建立标准,所以不同的数据 库实验结果会存在一定的差异,单一数据库的实验结果可能存在随机性,说服力较弱,也 不能体现算法的鲁棒性,所以本文的实验结果都是基于不同数据库进行测试,使得实验结 果具有一定的科学依据。

1・MEEI数据库

MEEI数据库[⑹(Massachusetts Eye and Ear Infirmary, MEEI),它是由美国麻省眼耳鼻喉 医院语音实验室开发的一种商业数据库,包含1400多例病理元音/“。实验中只考虑一个子 集数据库,从中挑选53例正常样本,27例声带麻痹样本和144例声带非麻痹样本(声带 小结、声带息肉等),正常嗓音的采样率为50KHz,病态嗓音的采样率有25KHz和50KHz 两种形式,正常嗓音和病态嗓音的采样时间分别为3s和1〜3s。尽管用于记录正常和病理 嗓音样本的环境和采样频率并不相同,但它是大多数语音病理检测和分类研究中公认的数 据库。

  1. 自建临床数据库

自建临床数据库[迢中,所有样本均来自临床病例,受试声样为汉语元音/a/,采样率为 16KHz,录制时间大约为1.5〜3s,并在安静的环境中进行录音。录音的对象为近期无喉部 疾病的正常人和近期到医院就诊的喉部疾病患者。其中收集正常样本78例,病态样本73 例,每一个临床病例都是经过临床医生使用喉内窥镜进行检查确诊和病类严重程度的评估 进行选择的。

3 •德国萨尔布吕肯数据库

德国萨尔布吕肯数据库[37](Saarbruecken Voice Database, SVD),它是由德国萨尔大学语 音学院负责录制可自由下载的数据库。该数据库包含1〜3s持续的元音/a/。数据库中所有录 制的声音均以50KHz采样,采用16位分辨率。该数据库是新的数据库,在语音病理检测 研究中并不多见。本实验从中挑选76例正常/"音、84例声带麻痹/"音和72例声带非麻痹

(42声带息肉+30例声带水肿)如音。元音能够反应声带振动的状态,当喉部受到损伤时, 发出的元音能够更清晰的体现出这种变化,因此在病态嗓音识别中,通常选择持续元音/" 作为受试声样。为了避免不同采样率所带来的影响,在此将每个数据库所挑选样本采样率 统一降为16KHzo

1.4病态嗓音识别的一般分析过程

病态嗓音的识别主要是依据语音识别的原理来实现的。病态嗓音识别主要涉及语音学、 病理学及人工智能等学科,其流程图如图1-1所示。从流程图中分析可得,病态嗓音识别 系统主要包括训练和识别两个阶段。语音信号具有短时平稳特性,实验过程中,对采集的 语音信号进行分帧、加窗操作,提取具有代表性的声学特征参数,随机的选取部分特征参 数作为训练集,训练生成模板。将剩余的用作测试集,与训练生成的参考模板进行匹配, 完成病态嗓音的识别工作。因此,在进行病态嗓音识别时所选择的特征提取方法的有效性 和选择有较强分类能力的模式识别算法是病理嗓音诊断的关键技术。特征提取的主要目的 是将声学模拟信号转变为可供计算机进行处理的数字信号,根据嗓音发生病变时改变声学 特征参数的特性,找到能够更好表达嗓音疾病特征的一组参数,使用这组参数实现对嗓音 疾病的自动检测和识别。

图1-1病态嗓音识别系统流程图

1.5本文主要研究内容

嗓音在发生病变时,不同的嗓音疾病会产生不同的噪声,并且不同的声带类嗓音疾病 特征可能出现在不同的波段,因此摆脱以往在整体语音上做时域或频域分析的方法,分解 出正常嗓音和病理性嗓音的不同频率成分成为区分嗓音疾病的关键。1.本文针对声带类疾 病分类时参数选择存在一定局限性这一问题,从非线性和统计学角度出发,提出了小波包 多尺度分析的病态嗓音识别方法,以提高声带类嗓音疾病的识别率。首先,使用小波包分 解得到不同频段的子信号,然后从不同频带中提取非线性特征:Hurst指数、2-Renyi Db和吸引子,将提取的多尺度特征进行组合,识别正常和病态嗓音信号时,在MEEI数据 库、自建临床数据库、SVD数据库得到的平均识别率分别为99.15%, 97.87%, 96.76%, 最高识别率均为100%;当分类正常、声带麻痹声带非麻痹三种嗓音信号时,在MEEI数据 库和SVD数据库得到的平均识别率分别为98.32%和92.89%。实验结果表明,声带类嗓音 疾病经过小波包多尺度分解后提取的特征能够有效地提高识别率。

  1. 针对传统机器学习算法在病态嗓音分类过程中分类准确度取决于提取的特征的有 效性这一局限性,提取了延迟时间和卷积神经网络对正常和病态嗓音信号进行分类识别。 利用语音信号自身的混沌特性,使用延迟时间将一维语音信号转化为二维语音信号M*N, 然后通过Matlab平台搭建的具有3个卷积层的神经网络模型实现正常和病态嗓音信号的分 类识别。
  2. 针对非线性动力学特征能够有效的描述正常和病态嗓音信号的声学特性,将相空间 重构理论引入到嗓音信号的特征提取中,利用延迟时间和嵌入维数理论实现对正常和病态 嗓音信号的相空间重构,从而获得嗓音信号的重构轨迹图。根据三视图的原理分别对重构 后的相图进行(x(n),x(n+ T))、(x(n)fx(n + 2T))、(x(n + T\x(n + 2T))三个方向的投影, 将其分别作为卷积神经网络RBG三通道的输入,将一维语音信号转化为二维图像,从而 生成嗓音信号的重构轨迹图形样本。将生成的轨迹图形样本输入到搭建的VGG-like卷积 神经网络中提取图形特征,实现对正常和病理嗓音信号的分类。

1.6本文各章节组织结构

第一章本章主要介绍了本课题研究的背景意义及研究现状,实验过程中所用到的数 据库。然后论述了病态嗓音识别的一般分析过程及本文的主要研究内容和各章节的组织结 构。

第二章 本章主要研究了声带振动的机制和不同声带类嗓音疾病的临床表现,对嗓音 信号的声学参数和非线性参数及其算法和SVM算法的原理进行了详细的阐述。

第三章本章主要对小波包变换的理论知识进行详细的阐述,并详细介绍了小波包多 尺度分析的不同频带特征提取的具体步骤。接着对不同数据库提取的多尺度特征进行病态 嗓音的二分类和声带类嗓音疾病的细分类的识别。通过对实验结果进行分析对比,表明了 本章提岀的多频带划分思想对语音信号进行预处理之后,能够较好的分解岀不同嗓音信号 存在差异的频域段。所提取的多尺度特征能更好的识别不同的嗓音疾病。

第四章 本章的主要内容是介绍了卷积神经网络的基础结构等原理性知识和相空间 重构的基本理论知识以及参数的计算问题。探究使用延迟时间参数将一维的语音信号转化 为二维矩阵的形式的有效性,使用改进的LeNet-5网络对二维矩阵进行分类识别。研究了 相空间重构技术和CNN在分类病态嗓音信号上的优势。首先计算嗓音信号的延迟时间三和 嵌入维数利用获得的参数实现对嗓音信号的相空间重构,获得正常和病态嗓音信号的 三维重构轨迹图,对重构的三维空间轨迹图形进行投影,转换为二维轨迹图像,然后利用 设计的VGG-like网络从图像处理的角度出发,提取图形特征,实现正常和病理嗓音信号数 据的分类,分析分类结果,评估网络性能。

第五章本章对现有工作进行总结,讨论未来工作的着眼点。

第2章 病理嗓音发声机制和特征参数及模式识别理论

嗓音和发声系统之间存在着密切的关联,声音是由多个环节共同影响的,任何环节出 现问题,都会对嗓音的质量造成威胁。研究者要想对声带类嗓音疾病的声学参数进行深入 的分析,首先要清晰的理解声带振动的机制,其次是声带病变对嗓音造成的影响,从根源 有针对性的解决问题。

2.1声带振动的机制

一个完整的发音系统主要由肺、气管、喉、咽、鼻和口等器官组成。通过呼吸系统、 发声系统和构音系统三者的协调作用产生人类用于言语交流的嗓音信号。呼吸系统是言语 产生的动力源,正常呼吸时,存储在肺、气管与支气管内的气体有控制的随呼吸运动排出, 形成气流,进而达到声门处,到达声门处的气流将会转变为一系列的脉冲信号,然后通过 构音系统的共振腔的共同作用,形成声波,最终由嘴和鼻的发出声音信号。

声带又称声壁,声带的振动是语音系统发出声音的必要和决定性条件。当患者出现喉 部发音障碍时,声带病变导致的发音功能的异常。声带位于喉部中部,一般是左右对称。 当声带张开时,两声带之间出现一个缝隙,这就是声门裂,声门是有声带和声门裂两部分 构成。发声时,空气经声门裂的缝隙进出,当肺部呼出的气流流经声带时,喉部的声带就 会收缩,这就会使声门裂的宽度减小,从肺部以及气管呼出的气流引起声带的振动,在喉 内肌的协调作用下,有规律的控制声门裂的闭合,从而发出声音。

针对声带振动的机制,不同的学者有不同的见解,最具有说服力的是气流动力学理论。 基本理论为:呼吸流是声带振动的动力源,在此呼吸流的作用下,声带有规律的进行运动。 声带的一个渐开相和渐闭相组成振动的一个周期。当喉部正常的发岀声音时,喷出的气流 使声门被打开的瞬间,会产生从内下至外上的波状隆起,粘膜会向外上方作波浪状运动, 即为声门的渐开相。声门开放后,快速通过声门的气流在声门区形成负压,在这种负压下, 声门趋近闭合,闭合相开始。声门的反复开放闭合运动即为声带振动调制气流的过程。 2.2声带疾病的临床表现

声带病变是导致发音困难的主要原因。声带麻痹,声带息肉,声带小结等的发病率在 声带疾病中比较常见,给患者的日常生活和工作造成严重的影响。声带麻痹又称喉麻痹, 主要表现为当运动神经受到损伤时,声带就会表现出外展、内收或者肌张力松弛。发声时, 声带不能进行有规律的振动,故而发出的嗓音表现为嘶哑无力。

声带息肉多发于声带的前中部边缘附近,初期的病理性症状主要表现为声带的局部水 肿,喉部病变部位的血管出现扩张或出血现象。随着病情的加重,渐渐演变为声带表面覆 盖鳞状的上皮,形成白色或粉色的椭圆状突起。临床上表现为不同程度的声音嘶哑。

声带小结是由于患者用声过度导致声带组织破坏引起的喉部疾病,主要症状表现为声 带黏膜和基底膜的损伤。典型的声带小结表现为双侧声带1/3交界处有鼓起的出现,经过 一段时间之后,声带上的突起会造成声带黏膜表面水肿并呈现岀红色,到达晚期则逐渐呈 现为灰白色小隆起,这些突起表面光滑看起来比较坚硬,大约半个米粒的大小。声带小结 一般会对称出现,发声时,两侧的声带小结随着声带的闭合会相互靠近,导致声带不能完 全闭合,嗓音主要体现出嘶哑声。

在临床医学上,声带麻痹属于神经性障碍,具有可恢复性,声带小结和声带息肉等属 于是功能性障碍具有不可恢复性,两者具有本质上的差别,因此病理嗓音识别中对正常、 麻痹和非麻痹(声带小结、声带息肉)嗓音疾病进行识别具有一定的研究价值。

2.3病理嗓音声学参数

2.3.1传统声学特征

基频(FundamentalFrequency, F0)是指发音过程中声带振动的频率,被广泛用在语音识 别及检测方面[覘。在语音信号中,对基频的提取通常选用自相关函数法㈤]。基频的取值主 要取决于声门的压力大小和声带的紧张程度,声门压力越大或者声带张力程度越大,声音 的基频就越高。

频率微扰^Jitter表示相邻语音信号周期之间的频率的波动情况,其计算公式为:

Jitter =

频率微扰商^PPQ表示嗓音信号中频率的变化,一段11周期平滑处理的浊音信号周 期之间峰值频率的变化计算公式为:

振幅微扰[40]Shimmer是指相邻语音信号的周期之间振幅的变化情况,其计算公式为

^i=i \Ai ~Ai+i\

shimmer = z

振幅微扰^APQ表示嗓音信号中振幅的变化,一段经过11周期平滑处理过的浊音信 号不同周期的峰值振幅的浮动计算公式为:

EC N -10 I n ^=° Ai+r — "i+2 I

^PQ \

百君 =\Ai

其中,竹和川分别表示第i个发音周期内信号的频率和振幅,W为周期个数。

2.3.2 Mel频域倒谱系数

由于人听到声音的频率与实际发出的信号频率之间并不是线性关系,所以使用 Mel频域倒谱系数〔4刀(Mel-Frequency Cepstral Coefficient, MFCC)的频率尺度更加符合人 的听觉特点。该参数是在Mel频率尺度下进行声音分析的,它与频率的关系可用下式近似 表示:

Mel(f) = 2595^(1 + f/700) (2.5)

其中,f代表声音信号的实际频率,单位为Hz。图2-1为MFCC特征提取流程图。

图2-1 MFCC特征提取流程图

2.4病理嗓音非线性特征参数

2.4.1 Hurst 参数

当人的喉部发生病变时,嗓音中的非线性特性会明显增加,混沌特性也会随之增加。这 样会导致嗓音信号在广泛的时间尺度上体现出明显的自相似性。使用Hurst指标可以体现信 号中的自相似等特性的程度[⑹。在本文中使用R/S分析方法来计算该参数,以检测喉部的健 康情况,公式如下:

$ (m) = c Jmax f - — K(m) | - min (yM — — Y(m)\\ (2.6)

S,) S2(m) [o<P<m\ 3 m,J o<P<m \ 2 m v J]

其中,Y(m) = 样本方差记作S2(m),则Hurst参数可以表示为log(R(jn)/S(jn))

log(m)的最小二乘拟合。

2.4.2吸引子

嗓音信号的产生是非常复杂的,所产生的嗓音是非线性的,非平稳的,具有混沌特性 的信号屮】。奇异吸引子是混沌运动的主要特征之一,由于系统中的各个状态变量之间存在 着相互作用,并且混沌系统内部由于混沌吸引子的存在,所以在短期内可以由系统的一个 中间变量分析出其他状态变量的状态。这些运动不变量集合成简单的吸引子,最后经过无 穷次延伸与折叠,形成体积几乎为零面积无穷的几何结构,即为奇异吸引子宙]。

衡量两个变量之间的互联相关性通常选用互信息函数法。依据信息论理论,对于离散 随机变量X =(心以2, ■■■&),设P(E)为事件俎出现的概率,则可以使用信息爛H(X)表示X的 不确定程度,表达式为:

H(X) = —P(/)加(P(色)) (2.7)

对于两个不同的随机变量X = (xltx2> ■■■&)和丫 = (ylfy2f ■■■%!),贝和Y的联合Z商表示 为:

n mH(X,Y)=—》》卩(巾力)加卩(百切)

i=l j=l 式(2.8)中,P(XiyJ为竝和刃的联合概率。

互信息函数则可定义为:I(Xf Y) = H(X) + H(Y) - H(Xf K),即
心*心貓

式(2.9)中,片)表示变量石和力的联合概率密度函数,片表示变量石的概率密度,号表示变量 力的概率密度。互信息函数的第一个极小值(The First Minimum of Mutual Information Function, FMMI)对应的时间点可以用来估计待计算的延迟时间曰⑸,实验中用FMMI表示 吸引子。

2.4.3计盒维数

分形维数反应了复杂形体占用空间的有效性,是复杂形体不规则性的度量。分形维数 可以通过关联维数,计盒维数[购等体现。它将分形的自相似特性给予量化表示SI本研究 使用计盒维数度量病态嗓音信号的分形特性。

假设在W维欧式空间,其子集F的计盒维数%可定义为:

门「logNKF)

D7^ (2.10)

式(2.10)中,2是小立方体一边的长度,"(F)是用此小立方体覆盖被测形体F所得的数目。 上式表明,当2 t0时,曲线logM(F)/log(l/2)的渐进性趋近于一条直线,其斜率为D”实 验为了减少计算量,选择多点拟合来计算必。设竝=log(l//),yf = logM(F)J = 12…皿, 则:

1 1 x 1 y J

匕~ (器用)2-兀器曲2 Si)

2.4.4 2-Renyi 比商

爛的概念最早起源于物理学,主要用于测量热力学系统中的混乱程度。1948年,香 农第一次将热力学的嫡引入到信息论中,并解决了信息的测量问题,因此又被称为香农

^(Shannon Entropy) o Renyi®进一步扩展了 Shannon 这一概念。在ROnyi*商中,使用 转移概率的方法来衡量信息的损失量。

假设“山,…,在任意时刻n观察值落入单元格b以及在时刻n+1观察值落入乙等的 联合概率,则加维的厂阶Renyi®定义为:

禺(祠=占加工,…,im r>Ofr^l Q⑵

°1丿2,…,im

式(2.⑵中,当ft 1时,厂阶Renyi®近似香农*商;当r = 2时,称为2-RGnyi*商。

2.5支持向量机

支持向量机(Support Vector Machine, SVM)是由 Corinna Cortes和Vladimir Vapnik等人 提出的一种有监督的统计学习方法[伺。它能够有效解决小样本、非线性和局部极小值等实 际问题。SVM采用了内核映射的方式,从而将低维线性不可分的问题转换为高维线性可分。 对于二分类,如图2-2所示。

假设数据样本为xlfx2f...xn,wTx + b = 0为分类超平面,咒被称为分类超平面上的点; w为垂直于分类超平面的向量;b为位移量,主要用于改善分类超平面的灵活性。

图2-2中,H- /是各种分类超平面的最近样本,它们与分类超平面平行。H- H2 可以表示为:

其中,w是分类超平面的法向量;1和-1是为了方便计算取的常量,其他常量只要互为相 反数即可。

当样本集固定,那么可以找到一个平行超平面H,使得H]、出之间的距离最大,并且 在两超平面之间没有训练样本,其距离为2/||w||2o所以最小化||w||2,可以最大化两个超 平面之间的空间。此时H即为最优超平面,H]、出上的训练样本点就称为支持向量,前提 该样本是线性可分的。

为了使所有训练样本点在上述两个平行超平面间隔区域之外,我们需要确保所有的训 练数据样本点…心均满足以下条件之一,即:

  (H] wTx — b > 1 % = 1

I H2'.wtx — b < —1 yt = -1

(2.14)
归一化后得: 7i+ fe] > 1, i = (2.15)
因此,求取最佳(W”)可归结为二次规划问题,如下所示:  
  ( 蠡号2

j w,b 2

(2.16)

\yt\wTXt b] > 1, i = 1,-',n

式(2.16)的对偶问题,即最大化目标函数:

通过引入Lagrange定理可求岀式(2.17),其中©表示与每个样本对应的Lagrange乘子。

解中只有少部分©不等于0,对应的石称之为支持向量。如此,可得:

f(x) = sign w*x + b* = sign

由于目标函数和决策函数中的向量之间都只涉及点积运算,因此在运算中只要采用满 足Mercer条件的核函数,它就对应于某一变换空间中的内积。

K(巾可)=0(石)・0(可)

相应的二次规划问题目标函数变为:

n ] 乳

"&)=》如—m勾y仍{卩(竝)■卩(可)}
i=i i,j=i

n ] 九

=》乞—乞勾y仍心加

i=l M=1

SVM中,主要就是核函数的选择问题,常见的核函数如表2-1所示:

表2・1常用的SVM核函数

核函数 表达式
线性核函数 «(勺,可)=Xi - Xj
多项式核函数 Kx“Xj) = - xj + y)d y > 0
径向基核函数 Kx“Xj) = exp > 0
多层感知机 KXix] = tanh(yxi ■%; + /)

2.6本章小结

本章论述了声带振动的原理和几种常见的声带类嗓音疾病临床表现,然后对嗓音信号 的传统声学参数:基频FO、MFCC和非线性参数:Hurst参数、FMML Db、2-Renyi ®等 进行介绍,并详细阐述这些特征的计算过程。最后对SVM的基本原理及核心算法进行详 细的阐述。

第3章基于小波包多尺度分析的病理嗓音识别

3.1引言

嗓音信号是一种非线性非平稳信号,然而在对嗓音信号进行分析时,由于受信号发展 理论的限制,一般将嗓音信号近似为平稳信号进行分析处理。嗓音在发生病变时,不同的 嗓音疾病会产生不同的噪声,并且不同的声带类嗓音疾病特征可能出现在不同的频段,利 用以往的在整体语音上做频域或时域分析的方法,无法有效地将声带疾病的病理性特征完 全提取岀来,分类效果不够理想。时频分析技术的优势在于它能够将一维的时间信号转换 到同时包含时域和频域两种特性的二维空间,从而能够清晰的反映信号的频率随时间变换 的规律,有利于病理嗓音信号的分析和处理。

传统傅里叶变换将信号的时域特性和频域特性联系起来,信号在时域中不容易显现的 特性可以在频域中表现出来,由于它是在整个时间域内的积分,无法给出信号频谱随时间 变化的规律。随着信号处理技术的发展,20世纪80年代初期,Morlet等人首次提出了小 波变换这一概念,小波变换能够随信号变化自动调整时间分辨率和频域分辨率。由于小波 分解自身的特性,随着分解层数的不断增加,信号在分解过程中,信号的高频部分不再被 分解,为了使高频信号能够得到有效的分解,小波包变换应运而生。在对复杂信号进行分 析处理时,小波包变换更能得到研究者的青睐。

近年来的算法研究中,小波作为特征提取阶段的强大工具逐渐应用于病态嗓音识别中。 小波有多种表现形式,如离散小波变换,连续小波变换和小波包变换等。Fonseca等人在 离散小波变换子带和最小二乘支持向量机分类器中使用重构信号的均方值来识别声带结 节和正常嗓音信号;在文献[50]中,作者提岀一种基于局部判别基准则的小波包树自适应 增长算法来区分语音病态信号的算法,并且用遗传算法选择最佳特征集,用SVM作为分类 器识别时得到的分类结果为85%;文献[51]中,作者已经采用DblO小波将语音信号分解重 构提取自相似和近似嫡特征对四种声带类疾病进行分类,分类精度达到了 91%。在实验室 之前的工作中,对小波变换在病态嗓音识别方面也进行了相关度研究,如于燕平[⑷使用经 小波分解得到的多尺度爛系数作为模型识别的特征矢量集,运用GMM模型实现正常和病 态嗓音信号的分类,正常嗓音的识别率为95.06%,病态嗓音的识别率为92.20%o

3.2小波包变换的原理

小波变换(Wavelet Transform, WT),又被称为小波分析,是对信号进行时频分析的一 种强有力的工具。作为信号分析的显微镜,小波变换是用一系列长度有限且均值为0的振 荡波分析信号。与短时傅里叶变换变换最大的不同时,小波变换的窗函数能够根据信号的 频率自动调整窗口的形状,能够提供一个窗口随频率自动变换的“时间-频率”窗。在使用 小波变换分解信号时,它只对信号的低频部分进行分解,所以小波分析主要适用于以低频 信号为主要成分的信号。

为了克服小波分解在高频段存在的局限性,研究者在小波分解的基础上提出了小波包 分解技术(Wavelet Packet Transform, WPT)。小波包变换可以对每一层的低频部分和高频部 分进行再一次的分解,提供了更丰富的信号分析方法。小波包分解和多尺度分解以及Haar 小波分解有共同的特性,它们既能提取不同尺度下的低频近似信息又能呈现信号的高频细 节信息,从而得到更清晰特征的表示。小波包分解可以理解为将信号输入若干个相同带宽 但是中心频率不同的滤波器组,每个滤波器得出对应的系数,即可以分离出不同频段的信 号,和相应频段信号所处的时间段。如图3-1所示为小波包3层分解示意图。其中,S表 示原始信号,4表示低频部分,D表示高频部分。从图3-1中可以看出,小波包分解对原始 信号S完成首次分解后,之后需要对第二层的高频部分q进行分解,所以说小波包变换可以 对信号的高频部分提供更精细的分解。

图3-1小波包3层分解示意图

3.3病理嗓音信号的小波包多尺度分析

小波包变换是分析病理嗓音信号的一种有效的方法。在利用计算机技术自动的、客观 的对病理嗓音信号进行检测时,其关键点在于如何提取出能够进行有效分类的特征。当嗓 音发生病变时,病变部位主要集中在声带,发声时,引起声带振动负荷有一定的增加,声 带振动的规律性受到破坏,从而影响嗓音信号的声学特征参数。然而由于嗓音信号产生过 程及其复杂,并且会受到诸多不确定性因素的影响,因此并不能把整个嗓音信号的产生看 成是一个单一的非线性过程[期。文献[53]通过模拟研究发现发声过程中涡流与压力扰动和 频率都有一定是联系。文献[54]研究表明:不同的声带类嗓音疾病之间的频率均值有明显 的差异,病态嗓音的语图特征多表现为中、高频能量增加,非周期性波形出现,并且某些 部分伴有噪声出现。因此在对声带类嗓音信号进行分析时,在整个频带上提取声学特征参 数将会存在一定的局限性。

嗓音发生病变时,不同的嗓音疾病会产生不同的噪声,并且不同的嗓音疾病可能存在 于不同的频段,这取决于嗓音障碍的类型及其在声带上的位置。2011年,Jiangt55W出了分 层嫡的概念,通过分层,提取不同尺度上的样本嫡信息。文献[36]使用分层多尺度爛、三层 分层嫡和分层模糊嫡特征对病态嗓音识别进行了研究,实验结果表明特征经过分层之后, 能够提高病态嗓音的识别率,并且具有较好的稳定性。在2017年,Al nasheri[56]等提出使 用中心频率不同的带通滤波器对嗓音信号进行分频,提取不同频带的特征向量对病理嗓音 进行识别。基于以上文献的方法和结论,在整段语音信号上进行时频分析的方法提取声带 类嗓音疾病的特征可能存在局限性,分离岀正常和病理性嗓音的不同频域特征成为诊断喉 部疾病的一个突破点。病理动力学的病理性特征一般表现在信号的不同尺度上,将原始信 号分解为不同的频带,提取意义更丰富的动力学特征,为分析病理嗓音提供了新的思路。 本章借鉴多尺度分析的方法,提出了一种基于小波包分解的多尺度分析方法,原始语音信 号经过小波包变换之后分解出各个频段,然后提取不同频带的非线性特征来分析嗓音信号 的病理特性。

使用何种小波基函数和对原始信号进行几层分解是使用小波包变换分解信号的关键 点。常见的比较著名的小波函数有Haar小波、Daubechies小波、symn小波、coifN小波等, 其中Daubechies小波又叫DbN小波,Daubechies小波系中的小波基记为DbN, N表示小波阶 数,其中N = 12・・・仕0。当N = 1时又称为Haar小波,只有Dbl小波有明确的表达式。Haar 小波具有对称性和紧支撑等特性,但是因为它存在跳变,无法很好地描述连续信号,而 Daubechies小波具有高阶消失矩,能够很好地描述连续信号,所以本实验中使用DblO小 波对信号进行分解。本研究中使用的Db小波在语音信号分析中被证明是有效的⑶]。小波分 解层数也直接影响到识别性能,本次实验并未对小波包分解层数做过多的研究,仅仅只是 考虑到分解层数过少不能很好表达嗓音信号的时频特性,分解层数过多会使特征提取的时 间过长,从而影响系统的时效性,所以本章实验选取的小波包分解层数为4层。

3.4不同频带的特征提取

本研究提出了一种基于小波包多尺度分析的病理性嗓音信号分类识别的方法。流程图 如图3-2所示。实验过程中选用的是DblO的母小波函数,对信号进行4层分解能较好的 反映不同声带类嗓音疾病所包含的非线性特征。原始语音信号通过小波包分解,嗓音信号 被分解成不同的尺度,产生多尺度特征,每个尺度代表信号的特定特征。特征提取的具体 步骤如下:

  • 对输入的原始语音信号X使用DblO小波进行4层分解,将原始信号分解为16个 不同的频率子带,分别对16个频带求取低频系数向量(cA)和高频系数向量(cD);
  • 对经过小波包分解之后的低频系数向量(cA)和高频系数向量(cD)进行重构,得到与 原始信号长度一样的子信号。将获得的子信号还原到时域进行分析;语音信号的采样率为 16KHz,根据奈奎斯特采样定理,经小波包分解得到的16个子频带的频率范围为(0〜500Hz),

(500〜1000Hz).…(7500〜8000Hz);

  • 对重构的16个频率子带分别提取Hurst特征值、2-Renyi癇值、Db值和FMMI值, 每个单尺度特征经过分解之后可得到16维的多尺度特征向量。

图3-2基于小波包多尺度分析的病理嗓音信号分类流程图

3.5实验结果及分析

本实验提取的特征参数为前面章节介绍的病理嗓音声学特征参数和非线性特征参数, 实验中所选取的这些特征参数是根据实验室之前的研究成果,经过BP(Backpropagation)神 经网络和随机森林(Random Forest, RF)[26]进行特征排序之后,选择在分类正常和病态嗓音 时鲁棒性和贡献率较好的特征进行实验,特征及其简写形式如表3-1所示:

表3-1实验中用到的特征参数的简写形式 特征参数 英文全称 简写

基因频率 Fundamental Frequency F0
计盒维数 Box Dimension Db
Hurst参数 Hurst Hurst
二阶 Renyi 爛 2-Renyi Entropy 2-Renyi
吸引子 The First Minimum of Mutual FMMI
Information Function

由于数据样本有限,在进行病理嗓音识别过程中,考虑到数据量不均衡会对测试结果 造成一定的影响,所以为了增加样本量,本实验数据采用样本分割的方法。对于自建临床 数据库,每类样本从1001点到6000点,每5000个采样点截取一次作为1个样本,考虑 数据的长度,下一次截取的帧移为2500,共截取两次,包括正常样本156例,病态样本146 例,MEEI数据库对正常样本截取2次,共106例;对声带麻痹截取4次,共108例。声 带非麻痹不截取,共144例。在SVD数据库,对正常、麻痹和非麻痹嗓音样本分别截取两 次获得样本数量分别为152例,168例和144例。

表3-2不同数据库嗓音样本的统计情况

嗓音类别 MEEI数据库 SVD数据库 自建临床数据库
正常 106 152 156
病态 108麻痹

+ 144非麻痹

168麻痹

+144非麻痹

146
合计 358 464 302

3.5.1不同类型嗓音特征盒图

为了直观比较正常、声带麻痹和声带非麻痹三种嗓音信号提取的多尺度2-Renyi爛特 征、Hurst指数特征、Db和FMMI特征和原始嗓音特征之间的差异,以公认的MEEI数据 库为例,图3-3绘制了此数据库三类原始嗓音信号和经过小波包多尺度分解后的子带信号 特征分布箱型图。其中子图(a)-(d)为原始嗓音信号2-Renyi Hurst特征、Db和FMMI特 征值分布的箱型图,子图(e)-(h)为经过小波包分解后的第13频带2-Renyi头商值、第1频带 Hurst特征、第3频带Db值和第1频带FMMI特征值分布对应的箱型图。图中矩形框的红 色横线为特征参数的中心值,箱型图外的点为偏离中心值较远的异常值。从图中分析可得, 在原始语音信号中提取的四种单尺度特征,只有正常嗓音和另外两种嗓音疾病的中心值有 分层现象,声带麻痹和声带非麻痹两种病理性嗓音疾病的四种特征值箱型图中的中心值基 本是重叠在一起,说明单尺度特征不能很好的表达声带类嗓音疾病所包含的病理特性,所 以单尺度特征很难对这两种声带疾病进行分类识别。从图3-3的子图(e)-(h)中的四个子带 特征箱型图可以看出,正常嗓音、声带麻痹和声带非麻痹三种嗓音信号特征的中心值出现 了明显的分层,这意味着经过小波包多尺度分解之后提取的特征对正常、声带麻痹和声带 非麻痹三种嗓音疾病有较好的区分性。由于此盒图为单一子带的特征统计情况,实验过程 中使用的是16个不同子带特征,16个子带特征进行交叉融合,能够更好的呈现不同的嗓 音信号在不同频率带所表现出的差异性,相比于原始嗓音信号特征的单尺度信息,经过多 尺度化之后的特征更能区分声带类嗓音疾病。

图3-3 MEEI数据库原始信号和子带特征值分布箱型图(a)原始信号2-Renyi (b)原始信号
(d)Hurst特征参数;(c)原始信号Db值;(d)原始信号FMMI值;(e)第13频带2-Renyi (f)第1频

带的Hurst值;(g)第3频带Db值;(h)第1频带FMMI值

3.5.2识别结果及分析

本节所有的实验均采用SVM模型作为识别系统,选择径向基函数作为核函数。采用交 叉验证的方式通过网格搜索法来进行参数的寻优,用以确定惩罚系数C和核函数半径g的 大小。本实验以识别率作为验证特征是否有效的标准。为了确保实验结果的准确性使用10 折交叉验证的方式进行正常和病理嗓音之间的识别。将数据集随机的划分为10等份,其中 9份用来训练生成模板,另外的1份用来测试,验证模型的性能,不断的循环十次,相当 于每1份都参与训练和测试,每次训练和测试时,训练样本和测试样本之间没有交叉,最 后取十次实验结果的平均值作为最终的识别率。实验中所说的识别率为测试过程中识别正 确的样本数比上总的测试集样本数。

实验中,首先在三个数据库上进行正常和病态嗓音二分类组合特征的识别,接着分别 对MEEI数据库和SVD数据库中的正常嗓音、声带麻痹和非麻痹三类嗓音信号进行识别。 在文献[26]中,通过研究发现,传统特征参数中的基因频率F0对病态嗓音识别的平均识别 率有较大的贡献,因此实验中考虑将基频F0与经过小波包分解之后提取的多尺度非线性 特征参数组合作为新的特征矢量集进行识别,识别结果如表3-3所示:

表3-3不同数据库正常和病态嗓音二分类组合特征识别结果(%)

特征参数 自建临床数据库 MEEI数据库 SVD数据库
平均 识别率 最咼 识别率 平均 识别率 最咼 识别率 平均 识别率 最咼 识别率
Hurst+2-Renyi 97.05 100 97.80 100 96.12 100
Hurst+2-Renyi+FO 97.66 100 98.60 100 95.49 100
Hurst+2-Renyi+Db 97.37 100 97.76 100 96.54 100
Hurst+2- Renyi+Db+FO 97.49 100 99.15 100 96.32 100
Hurst +FMMI+

2-Reny+FO

94.82 100 98.87 100 95.24 100
Hurst+2-Renyi +Db+FMMI 96.97 100 98.32 100 95.69 100
Hurst+2-Renyi

+Db+FMMI+F0

95 100 98.89 100 95.03 100
2-Renyi+Db 97.87 100 96.63 100 96.76 100
2-Renyi+Db+FO 96.27 100 97.74 100 95.24 100

从表3-3中可以看出,随机选择几种特征组合进行识别,在三个数据库上,每种特征 组合的最高识别率都能达到100%的较优结果,平均识别率也能达到95%以上。在自建临 床数据库上,当使用2-Renyi W特征和Db进行组合时,取得较优的识别率:平均识别率为 97.78%,最高识别率为100%,其他组合特征的平均识别率在94.82%〜97.66%之间波动。在 MEEI数据库上,当使用Hurst特征参数、2-Renyi Db和F0进行组合时,取得较优的 识别率:平均识别率为99.15%,最高识别率为100%,其他组合特征的平均识别率在 96.63%〜98.89%之间波动。在SVD数据库上,当使用组合2-Renyi 特征和Db时,取得较 优的识别率:平均识别率为96.76%,最高识别率为100%o其他组合特征的平均识别率在 95.24%〜96.54%之间波动。与文献[26]相比,在自建临床数据库和MEEI数据库上,平均识 别率和最高识别率基本趋于一致的水平,说明实验过程中所使用的特征在经过小波包分解
之后仍能体现正常和病态嗓音信号的病理性差异。

为了进一步比较经过小波包多尺度分解之后提取的特征更能反映出声带类嗓音疾病 所包含的病理性特征,接下来的实验中分别对MEEI数据库和SVD数据库包含的正常、声 带麻痹和声带非麻痹三类嗓音信号进行实验,实验结果如表3-4和表3-5所示:

表3-4 MEEI数据库病理嗓音信号单特征识别结果混淆矩阵(%)

单特征 MEEI数据库 平均识 别率 原始嗓音信 号平均识别

  正常 麻痹 非麻痹
Hurst 正常 83.96 5.66 10.38 69.27 52.54
麻痹 7.41 66.67 25.93
非麻痹 13.19 26.39 60.42
2-Renyi 正常 88.68 0 11.32 94.41 40.32
麻痹 0 97.22 2.78
非麻痹 1.39 2.08 96.53
Db 正常 90.57 2.83 6.60 77.09 53.17
麻痹 0.93 81.48 17.59
非麻痹 9.72 26.39 63.89
FMMI 正常 78.30 4.72 16.98 68.44 48.27
麻痹 4.63 64.81 30.56
非麻痹 13.19 22.92 63.89

表3-5 SVD数据库病理嗓音信号单特征识别结果混淆矩阵(%)

单特征 SVD数据库 平均识 别率 原始嗓音信 号平均识别 率
  正常 麻痹 非麻痹
Hurst 正常 95.37 1.97 0.66 89.67 45.36
麻痹 5.95 86.90 7.14
非麻痹 4.86 8.33 86.81
2-Renyi 正常 90.79 8.55 0.66 91.37 40.78
麻痹 2.98 91.66 5.36
非麻痹 0.69 7.64 91.67
Db 正常 64.47 15.79 19.74 65.74 50.96
麻痹 17.86 66.07 16.07
非麻痹 14.58 18.75 66.67
FMMI 正常 62.50 21.05 16.45 61.85 40.58
麻痹 14.88 64.29 20.83
非麻痹 17.36 24.31 58.33

表3-4为MEEI数据库病理嗓音信号经过小波包多尺度分析后提取的非线性单特征识 别结果混淆矩阵。从分类结果混淆矩阵上可以看出,在MEEI数据库上,其中多尺度的2- RSyi嫡特征值取得了较好的识别率,在对三类嗓音信号识别时平均识别率为94.41%,其 中正常嗓音、声带麻痹和声带非麻痹的识别率分别为88.68%、97.22%和96.53%,当识别 正常嗓音时,11.32%被识别为声带非麻痹;当识别声带麻痹时,2.78%被识别为声带非麻 痹;当识别声带非麻痹时,1.39%被识别为正常嗓音,2.08%被识别为声带麻痹。多尺度的 Db特征在分类正常嗓音得到了较好的识别率为90.57%,声带麻痹和声带非麻痹的识别率 仅有81.48%和63.98%o多尺度的Hurst特征、Db特征和FMMI特征在识别声带麻痹和声 带非麻痹两种嗓音疾病时,识别结果产生较大的混叠,并不能够完全表达这两种嗓音疾病 的病理特性。从结果上看,多尺度的2-Renyi在分类三类嗓音信号时效果提升最为明显, 总体来说,经过小波包多尺度分解后提取的特征与原始嗓音信号特征识别率相比,识别结 果有了明显的改善。

表3-5为SVD数据库病理嗓音信号经过小波包多尺度分析后提取的非线性单特征识 别结果混淆矩阵。从分类结果混淆矩阵上可以看出,在SVD数据库上,其中2-Renyi W特 征值取得了较好的识别率,在对三类嗓音信号识别时平均识别率为91.37%,其中正常嗓音、 声带麻痹和声带非麻痹的识别率分别为90.79%、91.66%和91.67%,当识别正常嗓音时, 8.55%被识别为声带麻痹,0.66%被识别为声带非麻痹;识别声带麻痹时,2.89%被识别为 正常嗓音,5.36%被识别为声带非麻痹;当识别声带非麻痹时,0.69%被识别为正常嗓音, 有7.64%被识别为声带麻痹;多尺度的Hurst特征在分类正常嗓音得到了较好的识别率为 95.37%,声带麻痹和声带非麻痹的识别率为86.90%和86.81%。多尺度的Db特征和FMMI 特征在识别声带麻痹和声带非麻痹两种嗓音疾病时,识别结果产生较大的混叠。

从表3-4和表3-5可以看出,多尺度后的非线性特征Db和FMMI,在识别声带麻痹和 声带非麻痹两种嗓音疾病时,识别结果产生较大的混叠,并不能够完全表达这两种嗓音疾 病的病理特性。主要是由于嗓音信号的复杂性,声带发生病变时,并不是单一因素引起的 嗓音疾病,声带麻痹可能伴随有声带水肿,而声带水肿被分类为声带非麻痹。在临床检测 上,医生通过病变的程度对嗓音疾病进行分类,所以在识别声带类嗓音疾病时会存在交叉。 总体来说,多尺度分解后提取的特征与原始嗓音信号特征识别率相比,识别率有了明显的 提升,这足以说明在分类声带类嗓音疾病时,对嗓音信号进行多频带分析的重要性。

在对患者语音进行检测和评价时,单一特征参数向量只包含语音信号中的部分信息, 忽略了嗓音信号中其它有用的信息,无法较好的描述和表达嗓音信息。接下来的实验,通 过对单个特征随机组合,寻找一组能够较好表达病态嗓音信息的参数组,达到提高识别率 的目的。接下来的试验中分别在MEEI数据库和SVD数据库进行特征组合实验,实验结果 如表3-6和表3-7所示。

表3-6 MEEI数据库病理嗓音信号组合特征识别结果混淆矩阵(%)

组合特征 MEEI数据库 平均识别 率
  正常 麻痹 非麻痹
Hurst+2-Renyi 正常 98.11 0 1.89 98.32
麻痹 0 99.07 0.93
非麻痹 0.69 1.39 97.92
Hurs+2-Renyi+FO 正常 96.23 0 3.77 93.02
麻痹 0 93.52 6.48
非麻痹 2.78 6.94 90.28
Hurst+2-Renyi+Db 正常 96.23 0 3.77 96.93
麻痹 0 98.15 1.85
非麻痹 1.39 2.08 96.53
Hurst+2- Renyi+Db+FO 正常 93.40 0 6.60 92.18
麻痹 0 91.67 8.33
非麻痹 2.78 5.56 91.67
Hurst+2-Renyi

+FMMI+F0

正常 87.74 0 12.26 91.10
麻痹 0 89.81 10.19
非麻痹 2.08 89.91 94.44
Hurst+2-Renyi

+Db+FMMI

正常 97.17 0 2.83 98.31
麻痹 0 99.07 0.93
非麻痹 0.69 0.69 98.61
Hurst+2-Renyi

+Db+FMMI+F0

正常 92.45 0 7.55 92.74
麻痹 0 92.59 7.41
非麻痹 2.78 4.17 93.06
Renyi+Db 正常 98.11 0 1.89 96.93
麻痹 0 98.15 1.85
非麻痹 1.39 3.47 95.14

表3-7 SVD数据库病理嗓音信号组合特征识别结果混淆矩阵(%)

组合特征 SVD数据库 平均识别 率
  正常 麻痹 非麻痹
Hurs+2-Renyi 正常 96.05 1.97 1.97 92.89
麻痹 1.19 92.86 5.95
非麻痹 0.69 9.72 89.58
Hurst+2-Renyi

+Db

正常 91.45 8.55 0 92.06
麻痹 2.38 91.67 5.95
非麻痹 0 6.94 93.06
2-Renyi+Db 正常 94.08 5.92 0 92.67
麻痹 0.6 94.05 5.36
非麻痹 3.47 6.94 89.58
Hurst+2-Renyi

+Db+FMMI

正常 96.05 328 0.66 92.24
麻痹 1.79 91.67 6.55
非麻痹 0 11.11 88.89

表3-6为MEEI数据库组合特征的识别结果混淆矩阵。从识别结果可以看出,当使用 Hurst和2-Renyi®特征组合时,三种嗓音的识别率都取得了较优的结果,即正常嗓音的识 别率为98.11%、声带麻痹的识别率为99.07%、声带非麻痹的识别率为97.92%,平均识别 率为98.32%,相比于其他组合特征的识别结果能够更好的区分这三种嗓音信号,比使用单 一特征2-Renyi 进行识别时两者的最优平均识别率相比提高了 3.91%,而其他组合特征 的识别率基本也在92%-98%之间。当在组合特征中加入F0时,识别率并没有提高,考虑 到在这里使用的F0是原始嗓音信号的基频,并没有对其进行多频带分解,这也说明原始

嗓音信号提取的特征不能够完全表达声带类嗓音疾病的病理特性。在SVD数据库进行三 分类识别时,不再考虑基因频率这一特征,仅选用在MEEI数据库表现良好的特征组合在 SVD数据库上验证多频带分析的有效性以及特征的鲁棒性。

表3-7为SVD数据库组合特征的识别结果混淆矩阵。从识别结果可以看出,在SVD 数据库上识别三种嗓音信号时,任意特征组合的平均识别率都能达到92%以上,当使用 Hurst和2-Renyi嫡组合时,平均识别率取得了较优的识别结果为92.89%,正常嗓音的识 别率也达到了最高为96.05%,其他两种声带类疾病的识别率为92.86%和89.58%,说明这 组特征能够较好的表达正常嗓音信号的特性。当使用2-Renyi «和Db进行组合时,声带麻 痹的识别率达到了最大值为94.05%,说明这组特征值能够较好的表达声带麻痹嗓音信号的 特征;当时用Hurst、2-Renyi嫡和Db进行组合时,声带非麻痹的识别率达到了最大值为 93.06%,说明这组特征值能够较好的表达声带非麻痹嗓音信号的特征。不同的特征表达不 同的嗓音信息,2-Renyi «表征信号的混乱程度,Hurst指数可以有效的描述嗓音信号的自 相似长相关特性的程度,Db能够较好的度量混沌信号的分形特性,FMMI能够描述嗓音信 号的混沌特性。分析表3-6和表3-7可以得出,无论哪种特征组合,在识别声带麻痹和声 带非麻痹两种嗓音信号时,都会存在一些误识别,主要是因为声带发声病变时的病理特性 很相似,是影响病理嗓音细分类识别的一大难点。从两个数据库的实验结果可以看出,原 始嗓音信号经过小波包变换的多尺度分析之后,对不同频带的嗓音信号提取特征,能较好 的反映出声带类嗓音疾病的病理性特征,从而能够准确的识别三种不同类型的嗓音信号。 同时也体现了所使用的组合特征有较好的鲁棒性。当使用组合特征时,可以减少特征之间 的冗余性,起到互补的作用,从而提高嗓音疾病的识别率。

3.6本章小结

本章基于不同的嗓音疾病特征可能存在于不同的频带,不同的语音障碍会产生不同的 频率的特点,提岀了使用DblO小波包多尺度分析的方法。详细的论述了小波包变换的理 论知识,并重点介绍了使用小波包分解技术对信号进行高频分析的优势所在,为本章使用 小波包进行多尺度分析做好理论铺垫。接下来对实验中使用的小波基函数以及分解的层数 的选择进行了说明,并详细介绍经过小波包多尺度分析之后不同频带特征提取的具体步骤。 首先,对原始语音信号进行4层分解,将待处理的语音信号分解到不同的频率段上,提取 出Hurst值、2-Renyi嫡、Db和FMMI四种非线性特征参数,使用它们的组合形式对正常 和病态嗓音信号以及正常、声带麻痹和声带非麻痹三种类型的嗓音信号分别进行分类识别。 当使用Hurst指数和2-Renyi爛组合时,在MEEI数据库和SVD数据库上进行三分类识别 时,三种嗓音的平均识别率达到最佳,分别为98.32%和92.89%o实验结果表明本章提出 的多频带划分的思想对语音信号进行预处理之后,能够较好的分解出不同的嗓音信号存在 差异的频域段,在不同的频率段提取的多尺度特征能够更好的识别不同的嗓音疾病。

第4章 基于卷积神经网络的病理嗓音识别

4.1引言

目前,对病理嗓音的识别研究的主要思想还是特征的选取和传统的机器学习算法,而 传统的机器学习方法最大的问题是分类准确度取决于提取特征的有效性。一般情况下,越 多的特征越有利于更好的分类,相同的特征使用不同的识别机又有不同的分类效果,特征 学习表达能力有限。基于传统机器学习算法提取的声学特征,大部分都是人为定义的,具 有较强的主观性,并且需要实验者花费大量的时间和精力进行反复测试,可移植性较差, 另一方面,手动提取特征的过程中,无法很好的把握嗓音信号内在的特性,会导致提取的 特征不够完整,无法较好的反应嗓音信号的特点,造成识别率偏低。如果能够摒弃传统的 分类方法,根据嗓音信号自身的特性自动完成对信号的时域和频域特征提取的过程,不仅 可以简化整个病态嗓音识别系统的结构,同时也能提高系统的识别效率以及准确率。

为了解决传统机器学习方法中的分类精度取决于提取特征的有效性这一局限性,卷积 神经网络作为特征提取和分类器在图像和语音识别上取得了显著的分类效果,卷积神经网 络最大的特点是,通过不同的卷积层可以自动完成特征的提取,从而避免前期复杂的特征 提取过程。与反向传播神经网络和SVM等浅层神经网络相比,卷积神经网络具有较强的 提取复杂和抽象特征的能力,可以避免陷入局部最小值。现阶段研究中,卷积神经网络主 要用于图像的分类识别,图像一般都是M* 2*3的形式,其中M, W代表图像的大小,3表 示图像的通道数,即为彩色图像。而语音信号是一维的,考虑到一维信号所包含的信息量 比较单一,在使用卷积神经网络对正常和病态嗓音进行分类时,卷积核提取的特征有一定 的局限性,所以在使用卷积神经网络进行识别时,首先需要考虑的是如何将一个一维的语 音信号转化为二维矩阵的形式,然后将构造的二维矩阵输入到卷积神经网络中进行识别。 在本章的实验中我们采用两种方法构造二维矩阵:1・基于延迟时间的二维矩阵的构造; 2.基于相空间重构的病态嗓音识别。而在病态嗓音识别中,深度学习并没有得到广泛的应 用,一个主要的原因在于数据库样本量的局限性。针对这个问题,我们采用数据分割的方 式达到增强样本量的目的,使用深度学习对病理嗓音进行分类识别。

4.2 卷积神经网络(Convolutional Neural Network, CNN)

卷积神经网络是一种具有深度结构的前馈神经网络。该网络结构中含有大量的卷积运 算,是深度学习的代表算法之一[涸,已经成为当今图像识别领域的研究热点。在二十世纪 八九十年代,科学家开始了对卷积神经网络的探索,其中,时间延迟网络和LeNet-5是最 早出现的卷积神经网络a】。在二十一世纪后,随着深度学习理论和数值计算设备的改进, 卷积神经网络得到了快速发展,并被大量应用于计算机视觉,自然语言处理等领域[58]oCNN 的分类模型与传统机器学习算法最大的不同点在于CNN可以直接将原始数据输入到网络
模型中,根据实际的分类目标在网络的输出端给出分类结果。CNN的优势在于完全舍弃了 前期的繁琐的人工提取特征的过程。该网络结构将特征提取和目标分类合为一体,网络中 需要的权重参数通过反向传播算法优化获得。要想使卷积神经网络在目标任务中有出色的 表现,主要在于研究者要精心的设计网络的结构和网络中超参数的设置。与传统的学习方 法相比,CNN所提取的特征更加能体现数据的内在相关特性。

4.2.1卷积神经网络的基本结构

CNN是仿造生物的视知觉机制构建的,可以进行监督和无监督学习。CNN最大的优 势在于具有权值共享机制,主要表现在隐含层内卷积核神经元之间参数的共享机制以及层 间连接的稀疏性,这种连接机制使得CNN的网络结构变得更加简单,并且大大减少了权 值参数的数量,提升了网络计算能力和速度。通常,CNN的网络结构一般包括数据输入层、 卷积层、激励层、池化层和全连接层。如图4-1为一简单的CNN网络结构图:

iConvolutionl iPoolmgl [ Convolution] [ Pooling j I_Funy Connected |
— Layer T H LayerH r — Layer LayerH r — Network T

图4-1简单的卷积神经网络结构示意图

1.卷积层

对于CNN来说,卷积层是整个网络结构的核心层。该层主要功能在于对输入的数据 进行卷积操作,得到的输出称之为特征图。在网络结构中,每一个卷积层包含有多个卷积 核,用于学习不同层次的特征。与传统神经网络不同的是,CNN同一卷积层的权重和偏置 是一样的,也就是CNN的权值共享特性。对数据进行特征提取就是在卷积层实现的,卷 积层最大的优点在于具备特征学习的能力,可以简化繁琐的特征提取的过程。

卷积运算的具体操作为:首先固定好卷积核的尺寸,让其沿着输入数据的横纵坐标移 动,在一个滑动的位置上,卷积核与对应的数据之间会进行对应的操作,即同一位置的元 素之间相乘相加,将卷积核内的信息投射到特征图中相应的位置上,从而得到一个新的特 征激活图。每次滑动的长度称为步幅So,可以用来控制输出特征图尺寸。输出特征图的大 小由卷积核的大小和步幅共同决定。卷积核在工作时,会有规律地遍历输入的特征,在卷 积核大小对应的范围内对输入数据做矩阵元素乘法求和并叠加上偏差量:

Z'+i(iJ) = + b

Ki f f

=》工》必㈱+ 乂轴+y)w{+i(x,y)] +b

k=l x=l y=l

L[ + 2p f

QJ)G{O,1Ll+1} L屮= 一 +1

So

式中,g表示卷积运算,b为偏差量,Z/和表示第2 + 1层的卷积输入和输出,也被称为 特征图,ZQJ)对应特征图的像素,K为特征图的通道数,f, So和p是卷积层参数,对应于 卷积核大小,卷积步长和填充层数。

如图4-2所示为一卷积核特征提取过程示意图,输入的特征图的尺寸为6x6大小,使 用3x3的卷积核对其进行特征提取,滑动步长So为1,通过计算h+i得到输出特征图的大小 为4x4,其中p为0, f3, S6

图4-2卷积核特征提取过程示意图
2.激励层

激励层的主要作用是对卷积层输出结果做非线性映射,用以增加整个网络的表达能力。 对于传统的人工神经网络而言,一般使用sigmoid和tanh函数就可以满足分类任务的需求。 但卷积神经网络通常有较深的层数,使得前向传播过程中的计算量增大,同时在反向传播 更新参数的时极易产生梯度消失等相关问题,因此,在CNN中最常用到的激活函数为修 正线性单元(Rectified linear unite, ReLU),其函数形式如公式。

f(x) = max(^0, %) (4.2)

3.池化层

所谓池化操作就是对卷积之后的特征图进行降采样,此图层会减小要素图的大小, 同时保留重要要素,从而获得新的特征结构。在CNN中,通过卷积运算可以获得大量特 征,由于提取的特征向量包含大量信息,如果一直采用卷积操作,会产生很大的计算 量,同时整个网络在训练的过程中容易导致过度拟合,降低了模型的泛化能力。在这种 情况下就要引入池化操作适当减少输入特征图的大小。在实际应用中,池化操作主要有 三种形式:随机池化、平均池化和最大池化。对于卷积操作之后得到的一个特征映射0, 可以将0根据池化核的大小划分为多个区域Rkfk = lf2f...K, 一般情况下,多为不重合区 域。一个子采样函数dow?i(・)定义为:

Z$+i = f(Z» = f(wl+1down(Rk)bl+1) (4.3)

式中,和,+i分别为网络的权重参数和偏置参数。down(RJ是子采样后的特征映射, 一般取区域内所有神经元的最大值或平均值,公式如下:

最大值池化:

POOlmax(Rk)=傑常 兔 (4.4)

平均值池化:

Poolmin(Rk) = —min at (4.5)

Rk lERi

如下图4-3为简单的池化操作示意图:

输出特征图

(a)最大池化

图4-3池化操作示意图

  1. 全连接层

在CNN网络中,全连接层的作用是将经过多个卷积层和池化层之后得到的特征进行 整合,将得到的二维形式的特征图转化为一个一维向量的形式,使获取的图像特征具有高 层含义,更好的实现分类。全连接层相当于卷积神经网络中的分类器,它对提取的特征进 行加权求和,将学习得到的特征映射到样本标签空间,针对网络处理的问题进行最后的分 类处理。

4.2.2批量标准化算法

批量标准化算法(BatchNormalization, BN)[60]是一种新的数据处理方法,主要是目的是 为了使输入到激活函数的数据符合正态分布。在深度网络结构中,使用BN算法能够加快 网络收敛的速度,在网络训练时可以设置较高的初始学习率,在一定程度上缓解过拟合。 具体操作为:将特征数据的每一个维度减去数据同一维度的均值,然后再除以数据同一维 度的标准差,因为使用的是批量梯度下降算法,均值和标准差通过当前迭代的批量(Batch) 计算得到的。批量标准化仅考虑当前批量中的样本数,减少计算量。

假设有一个d维的输入向量兀=(尤⑴山⑵,■■■,%(")),对每一维的数据使用批量标准化算 法进行数据规范化处理,如公式所示:

x - E[x^]
y/Var[x^]

式中,k表示维度,即第k维,E[x^]和刃诃兀仇)]分别表示输入向量x =(兀⑴,兀⑵ 的第/c维度的均值和方差。

在网络训练中,公式(4.6)容易造成梯度消散问题,为了克服这一问题,BN算法加入了 可学习的参数y和快

yk = ykxk + (4.7)

在反向传播过程中,通过梯度下降算法进行学习、更新学习参数。BN层前向传导过程 见公式:

]m

— / Xi

771

i=l

(4.8)
—石〉g 一 Mb)2

i=i

(4.9)
Xi 一 也

Xi <f

(4.10)
 
% — y兔 + D 三 BNy 吐&) (4.11)

式(4.8)和(4.9)分别是一个批量所有样本输入的均值和方差,公式(4.10)是把一个批量的输 入进行标准化后得到的结果。公式(4.11)为同构变换。

4.3数据增强方案的选择

本章所有的实验是在MEEI数据库、自建临床数据库和SVD数据库上进行,这三个数 据库中的样本数量不足以训练有效的深度模型。而在临床医学上获取大量的病理语音信号 样本是不现实的,它涉及患者的隐私,并且医生对于采集的样本进行标注也并不是一件容 易的事,这些技术需要专业有素的医生完成,同时也需要花费大量的精力。因此,我们使 用一种数据分割的方式帮助我们增加数据量。IhsanUllah®]在分类和识别ECG信号时提 出了两种数据增强方案,通过使用固定大小的窗口将给定的全长信号分割成小信号来增强 数据,每个小信号用作学习CNN模型的独立样本。本章的实验研究使用类似的样本分割 方法来增强样本数量。在实验室之前研究的基础上,当一个样本的采样点个数为2000点或 5000点时,提取的特征对嗓音信号具有较好的描述能力,并获得较好的识别率〔殉。在将一 维的语音信号通过延迟时间转换为二维矩阵时,需要考虑矩阵的维度,所以本实验中嗓音 样本长度选择5000点,即窗口大小为5000,步幅大小为1000,对l-3s的样本数据进行分 割,最终舍弃窗口长度不足5000的部分。通过这种方式,在MEEI数据库最终共获得正常 样本2243例和病态样本2011例,自建临床数据库上获得正常样本3560例,病态样本3521 例。

当使用GP算法进行相空间重构时,如果采样点的数量太大,则对样本进行计算所花 费的时间将显著增加。如果数量太小,则重构的数据不能精确地描述相空间的结构。因此 实验中选择2000个采样点作为语音样本的长度。因此,在三个数据库上,选择2000的窗 口大小和1000的步幅,对l-3s的样本数据进行分段,最后丢弃窗口长度小于2000的部 分。通过这种方式,在MEEI数据库获得正常样本2402例和病态样本2526例(包括声带麻 痹390例和声带非麻痹2136例),在自建临床数据库获得正常样本3794例和病态样本3740 例,在SVD数据库获得正常样本2573例和病态样本6366例(包括麻痹样本3537例和非麻 痹样本2829例),以达到进行深度模型训练的数据量的要求。

4.4基于延迟时间和改进的LeNet-5网络模型的病理嗓音识别

4.4.1基于延迟时间的二维矩阵的构建

由互信息函数的第一个极小值计算出嗓音信号的延迟时间*⑸,可以用来衡量两个变 量之间的相互依赖性,互信息越小说明两个变量之间的相关性越小,所包含的信息越多。 当使用延迟时间确定组成的矩阵时,因为每两行之间的共同信息少,而新增信息就会增多, 所以在矩阵尺寸相同的条件下,所包含的信息量会被最大化,这样得到的矩阵能够更多的 反映嗓音信号包含的各种特性。所以实验中考虑使用延迟时间的整数倍作为帧移将一维信 号转化为二维信号M * 7V的形式。

  1. 一帧语音信号长度W的确定

根据语音信号短时平稳特性,一帧语音信号的长度通常至少要包含两个基因周期。由 于发声器官生理方面的差异,男性的基频范围在50-250HZ之间,女性的基频范围在120- 500Hz之间。首先,对MEEI数据库和自建临床数据库中所有的样本使用自相关函数法计 算每个样本的基因频率在80-300HZ之间,以最小的基因频率50Hz为例,在采样率为16KHz 的条件下,300个采样点至少包含两个周期的信号,所以在构造二维矩阵时将每一帧长度 设置为300,帧移设置为50倍的延迟时间,将一维语音信号生成M* 300的二维矩阵。

2•帧数M的确定

实验中,一个语音样本长度为5000个采样点,将帧长设置为300,帧移设置为50*t, 则帧数为M = 4700/(300 - 50 X巧。采用延迟时间的倍数作为帧移,是因为语音样本计算 的延迟时间分布在2-10之间,这样使得组成的矩阵中上下两行之间数据的差异比较小,所 以实验过程中将延迟时间进行倍数的扩大,目的是组成的矩阵上下两行能包含更多的嗓音 特征。

在计算中,由于语音信号的动态特性,计算得到的每一个样本的延迟时间的值是不固 定的,那么每一个样本的帧数M也是不固定的。通过计算统计得到,大部分语音样本帧数 在32附近波动,所以我们将每一个样本的帧数均固定为32,帧数超过32的就将多余的部 分舍弃,对于帧数不够32的对其进行循环操作,最终输入到卷积神经网络的尺寸归一化为 32*300的大小。

4.4.2分类模型的构建

一般地,卷积神经网络的输入是经过处理之后具有相同尺寸大小的二维图像。LeNet- 5模型最早是针对手写字体字符识别提出来的mi,该网络模型在不包括输入层的情况下, 共有3个卷积层Cl、C3和C5,两个下采样层S2和S4, —个全连接层F6,全连接层后为 根据具体分类目标设置的分类输出层。每个卷积层卷积核的大小均为5x5,卷积核的数量 分别为6、16、120,分别表示经过卷积操作之后得到的特征图的数量。

LeNet-5网络结构比较简单,对计算机处理性能要求不是很高,所以本部分实验以 LeNet-5模型为基础,在其网络结构上进行一些网络层或参数的改进,重新构造一个可供 参数调节和网络结构调整的卷积网络结构模型,通过适当的增加或减少卷积层数以及卷积 核的数量,或增加新的网络结构等完成模型的训练和测试。在MEEI数据库和自建临床数 据库进行仿真实验,输入样本为经过延迟时间规整为32*300大小的矩阵,以探究卷积神经 网络中某些特定参数或结构布局对实验结果的影响。当使用CNN训练深度模型时,由于 样本数据量的限制,很可能会发生过度拟合。过度拟合是未经训练的样本数据预测不佳的 原因之一。当过拟合发生时,过拟合模型将记忆训练数据,而不是学习更好地预测。因此, 采用规范化®]、批量规范化wo】、提前停止a】、模型选择砂]能够克服过度拟合。为了加快网 络的收敛速度,防止网络训练过程中的过度拟合,在进行模型构建时,实验中在每个卷积 层后增加了一个批归一化层(BN),主要目的是规范化卷积层的输出。经过多次实验,现将 LeNet-5网络结构调整如下:

  • 增加C1层卷积核的数量为8个,不改变C3中卷积核的数量,再加入一个卷积层 C4,卷积核的个数设置为32个,不改变各层中卷积核的大小,仍为5x5;
  • 减少卷积层C5层的卷积核个数,使其从120个减少至64个,同时将卷积层C5层
    之后的全连接层F6层撤销,使C5层直接与输出层进行全连接,然后修改网络中的输出, 使用softmax函数进行分类输出;
  • LeNet-5网络结构中的所有神经元的激活函数由tanh函数改为ReLU函数;
  • 调整网络中的平均池化为最大池化,并在每一个卷积层后加入BN层,用以对输 入到激活函数的数据进行归一化操作,加快网络收敛速度。

根据输入样本集的特点,经过改进后的LeNet-5网络设置了 3个卷积层和3个下采样 层、1个全连接层和1个分类输出层。第一个卷积层使用8个大小为5x5的卷积核对经过 规整之后的32*300大小的语音样本进行卷积操作,滑动步长为1个像素值,为了确保输 出尺寸并进行一个像素的补零操作,则卷积后特征映射的大小为30*298,第一个下采样层 S2的采样区域为2*2,滑动步长为2,经过无重叠采样得到S2层的特征映射大小为15*149。 在第二个卷积层C3中,卷积核的个数设置为16个,大小为5X5,滑动步长设置为1,并 对输入数据进行补零操作,对S2层的数据进行卷积操作之后,输出的特征图的尺寸为 13*147。第二个池化层S4,池化核的大小设置为2*2,滑动步长为2,采用最大池化,经 过无重叠池化层之后,输出的特征图的尺寸为6*73大小。接着,在第三个卷积层中,卷积 核的个数设置为32个,大小仍为5X5,滑动步长设置为1,并对输入数据进行补零操作, 对S4层的数据进行卷积操作之后,输出的特征图的尺寸为4*71。全连接层F6的输入将 C5层的二维输出逐个展开为一维向量,则F6的输入神经元个数为4*71*32二9088,输出神 经元个数设置为64个,网络中所有的激活函数选择ReLU函数。最后一层为softmax分类层, 输出层的节点数根据实际任务选择。本实验是对正常和病态两种嗓音信号进行分类,所以 将分类层F7的神经元节点个数设置为2O基于延迟时间的病态嗓音识别框架如图4-4所 示:

4.4.3仿真实验分析
图4-4基于延迟时间的病态嗓音识别框架图

本次实验基于Windows7操作平台,使用Matlab2018深度学习算法网络框架,基于改 进的LeNet-5网络模型,分别在MEEI数据库和自建临床数据库上进行测试。在网络训练 过程中,本实验中初始参数设置如下:卷积层和全连接层的初始权重使用高斯分布随机生 成,均值为0,标准偏差为0.1,网络的初始偏置默认为0。网络中最大迭代次数max_epoch 设置为20,批尺寸batch_size设置为15,基础的学习速率learnRate设置为0.01,优化算法 选用SGD (随机梯度下降算法)。为了保证测试结果的准确性,实验中使用了 5折交叉验 证的方式进行训练和测试,以确保系统在不同的数据变化上得到测试。每次实验选择80% 的样本作为训练集完成卷积神经网络模型的训练,乘除的20%作为测试集。我们的工作目 标是训练具有高泛化性能和高准确度的正常和病理嗓音分类模型,为了评价训练过程中网 络的有效性,在两个数据库的实验中只绘制了5折交叉实验的最佳训练和预测曲线,即网 络训练和测试过程(Iteration)的准确率(Accuracy)曲线和损失函数(Loss)曲线。其中MEEI 数据库和自建临床数据库上正常和病态嗓音二分类训练集和测试集的分类准确率曲线分 别如图4-5、4-7所示,训练集和测试集的损失函数曲线分别如图4-6、4-8所示。在准确率 曲线中,蓝色表示训练集识别结果,黑色表示测试集识别结果,在损失函数曲线中,橙色 表示训练集损失值,黑色表示测试集损失值。

图4-5 MEEI数据库病理嗓音二分类准确率曲线

                训练集    
            -e   测试集    
1 1 1                        
'lUliiH    

1

                 
  bl   nt 一 !」 -           1
      **

0 1000 2000 3000 4000 4500

迭代次数

图4-6 MEEI数据库病理嗓音二分类损失函数曲线

从图4-5、4-7可以看出,经过改进的LeNet-5网络经过多次迭代之后,在训练集上的 准确度已经基本接近100%,这说明所设计的网络在两个数据库上都能训练出比较好的网 络模型,对训练集上的数据实现了较好的拟合。随着迭代次数的增加,训练集和测试集的 准确率在逐渐的上升,与之相对应的损失函数的值在不断的减小,并最终收敛为一个较小 的值,损失函数值越小,说明预测值和真实值的拟合程度越好,训练的模型越好。在MEEI 数据库和自建临床数据库上进行正常和病态嗓音二分类识别时,最终测试集的准确率分别 稳定在95.18%和94.84%o表4-1统计了两个数据库5折交叉验证的识别率,5折交叉之后 最终在两个数据库上得到的平均识别率为94.64%和94.26% o

表4-1不同数据库病理嗓音二分类5折交叉验证识别 结果准确 寸率(%)
叉数

准确

1 2 3 4 5 平均识

别率

MEEI数据库 94.82 93.77 95.18 94.25 95.18 94.64
自建临床数据库 94.84 93.56 94.28 94.73 93.89 94.26

从表4-1实验结果分析可知,利用延迟时间和卷积神经网络对病态嗓音信号进行识别 时,在两个数据库上得到的平均识别率都达到了 94%左右,实验结果说明,在将一维嗓音 信号转换为二维矩阵时,引入延迟时间特征参数的有效性。但是得到的分类结果在国内外 研究水平上表现比较平庸,因此需要继续挖掘能够有效的将一维语音信号转换为二维形式 的理论方法。研究发现语音信号含有混沌特性屮】,相空间重构技术是混沌时间序列分析的 基础,而相空间重构中需要考虑两个参数其中一个就是延迟时间G另外一个是嵌入维数171。 当实验中仅仅使用延迟时间这一参数时,只是简单的将一维语音信号转换为二维矩阵,并 不能表现混沌信号在高维空间隐藏的特性,所以在使用卷积神经网络进行特征学习时,学 习的特征具有一定的局限性,把嵌入维数考虑在内以后,可以使用这两个参数将一维语音 信号映射到高维相空间,把决定时间序列的吸引子从低维空间映射至高维空间从而恢复原 始系统的完整信息。接下来的实验中将引入相空间重构理论和卷积神经网络实现病态嗓音 识别。

4.5基于相空间重构和VGGJike网络模型的病理嗓音识别

本小节将相空间重构理论引入到病态嗓音识别中,经过相空间重构理论将一维语音信 号映射到高维相空间中,经Matlab仿真得到嗓音信号的高维相空间轨迹图。对其进行二维 平面的投影,生成的二维轨迹图像观察它的发散程度以及所占有的轨道数,能够充分体现 原始嗓音信号的特征信息。根据CNN输入图像的特性,对二维图像进行相应的预处理操作, 生成能够被CNN识别的二维图像样本,然后利用搭建的VGG-like网络进行特征提取和分 类,从而实现对正常和病态嗓音信号的分类识别。

4.5.1病理嗓音信号的相空间重构

随着研究的深入,已有理论证明:嗓音是非线性的,非平稳的,具有混沌特性屮]。相 空间重构技术是混沌时间序列分析的基础,相空间重构又称动力学重建,对时间序列的研 究发挥着极其重要的作用。语音信号是复杂的非线性的一维信号,使用传统方法对一维信 号进行特征提取时很难反映出该语音信号的全部特征,而相空间重构可以一维的信号转换 为多维度的信号,可以将语音信号中的混沌特性更好地展现出来。1980年,Packard提出了 相对简单的相空间重构法,于是引入了延迟坐标的概念。之后Takens [66]在此基础上,证明 只要选择合适的延迟时间三和嵌入维数m就能重构出一个与原系统等价的动力学系统。

对于给定的正常和病态嗓音样本的时间序列i = \,2,…N,i = \,2,…,N, W为时间 系列的长度,由延迟坐标相空间重构法可构造一个m维的相空间,如式(4.13)所示:

x = [xpXi+Tl...,Xi+(m_i)T] ,x E Rm (4.13)

其中,i = 1,2,…丄;L = TV - (m - 1)t,重构后得到的相空间轨迹矩阵:

X = -Xi

^i+T

■^1+t %2 ■ ■ ■

%2+t ■ ■ ■

: ・

Xl _ 尤厶+t

•・ 丨

  _xi+(m-l)T_   _xl+(m-l)T x2 + (m-l)T •' •• +(m-l)T_

其中:多维相空间的相点由行向量看构成,每一维的相空间轨迹中相点个数为厶刊弋表延 迟时间,m表示嵌入维数。只要选择合适的延迟时间和嵌入维数就能实现一维混沌信号的 相空间重构。

4.5.2相空间重构中参数的选择

4.5.2.1延迟时间的确定

使用坐标延迟重构法对信号进行相空间重构时,延迟时间三的取值将会影响相空间重 构的质量。当E取值较小时,相空间矢量X = Xi+Tf…皿中任意两个相邻分量百+兀 和陥屮小在数值上信息表征相差较小,吸引子结构并未完全打开,造成重构的相空间维与 维之间包含的信息存在大量的交叉现象,不能将原始信号隐藏的信息完全呈现出来;反之, 任意两个相邻分量勺+兀和Xf+(y+1)T在数值上信息表征相差较大,时间序列中前后时刻的动 力学状态变化较为剧烈,影响相空间重构的质量。因此选择一个合适的延迟时间对于相空 间重构来说极其重要。在计算延迟时间丁时,本章使用的是在第2.4.2小节介绍的互信息函 数法。

4.5.2.2嵌入维数的确定

在进行相空间重构时,嵌入维数m是另一个影响重构效果的重要参数。如果嵌入维数 m选择过大,则相空间维数明显变大,会造成计算资源的消耗显著增加,并且信号中的噪 声也会被放大,影响分析结果。反之,时间序列中的吸引子的结构不能被完全打开,吸引 子之间会产生折叠,信号中隐藏的信息不能被完全表达出来,因此最佳嵌入维数的选择也 至关重要。目前,在大多数的研究中,求解嵌入维数m最常用的方法就是Grassberger和 Procaccia提出的饱和关联维数法⑹】。因此,本文也使用G-P算法,具体计算步骤如下可参 考文献[26] o

通过计算互信息函数的第一个极小值和使用G-P算法可得到延迟时间讶口嵌入维数m, 从而可以获得嗓音信号的重构相空间向量。在实验室前人的研究基础上,实验中正常和病 态嗓音信号的嵌入维数分别取11、13[网。图4-9给出了 MEEI和自建临床两个数据库正常 和病态嗓音信号的重构三维状态空间向量,其中1正常、1病态和2正常、2病态分别表示 MEEI数据库和自建临床数据库正常和病态嗓音信号,T表示样本的延迟时间e从图4-9中 可看出:当对正常和病态嗓音信号进行相空间重构之后,可以将嗓音信号中的内部结构与 吸引子的运动轨迹直观的展现出来,并且正常和病态嗓音在重构高维空间中的运动轨迹也 表现不同。两个数据库上正常嗓音的吸引子运动轨迹比较集中也有规律性,病态嗓音吸引 子运动轨迹就显得比较分散而且杂乱无章,而且自建临床数据库比MEEI数据库的病态嗓 音分布更混乱。可能是由于自建临床数据库中的单例病态嗓音样本的疾病类型更加复杂, 不像MEEI数据库的单例病态嗓音样本是经过仔细挑选的单一疾病类型。因此,在重构相 空间中可以有效的展现语音信号中的病态信息。正常和病理信号的相空间轨迹中的混乱程 度和所占轨道的发散收敛程度是使用CNN进行分类的关键。

图4-9采用延迟时间嵌入理论重构的3维状态空间

4.5.3嗓音信号的相空间重构轨迹图像

实验过程中,在使用CNN对两类嗓音信号进行分类时,输入到网络中的样本为二维 图像。因此,首先要将重构的三维空间轨迹图在二维平面上进行投影,得到二维轨迹样本。 然后对得到的二维图像进行一定的预处理操作,将背景设置为黑色,去除坐标轴,仅保留 轨迹,图像分辨率设置为224*224,经过预处理的图像将作为CNN的输入,通过有监督的 训练实现正常和病理声音的分类。以MEEI数据库中正常和病态嗓音信号为例,投影结果 和预处理图像如图4-10所示,从投影得到的二维轨迹图可以看出,其二维图像仍保留了三 维空间轨迹的基本形状和分类特征。

4.5.4分类模型的构建
图4-10MEEI数据库正常和病态嗓音信号(%(n), %(n + T))方向的二维投影轨迹图和预处理后的轨迹
图样本

首先,使用改进的LeNet-5网络模型在MEEI数据库上进行病态嗓音的二分类识别, 此时网络的输入更改为224*224,为保证实验结果的准确性,实验过程使用5折交叉验证 的方式,并绘制5折交叉实验的最佳训练和预测曲线,实验结果如图4-11和4-12所示。 表4-2统计了 5次实验过程中的准确率。

20

0

0 1000 2000 3000 4000 5000

迭代次数

图4-11 MEEI数据库病理嗓音二分类准确率曲线

.5 L 训练集.

—令-测试集

2 *

0 1000 2000 3000 4000 5000

迭代次数

图4-12 MEEI数据库病理嗓音二分类损失函数曲线

表4-2 MEEI数据库病理嗓音二分类5折交叉识别结果准确率(%)

叉数

准确

1 2 3 4 5 平均识 别率
MEEI数据库 91.78 90.25 91.28 91.58 91.47 91.27

 

从图4-11准确率曲线可以看出,随着迭代次数的增加,训练集和测试集的识别率在不 断的提升。训练初期,训练过程出现明显的振荡,说明网络在不断的进行参数的优化工作, 使提取的特征更好的满足分类需求。随着模型训练的逐步完善,训练集和测试集的识别率 逐趋于渐稳定,最终稳定在91.78%O从图4-12损失函数曲线可以看到,当迭代次数在3000 次往后时,损失函数的值没有减小反而增加,网络模型可能出现过拟合现象。5折交叉之 后得到的平均识别率为91.27%。分类效果并不理想,而如果仅对LeNet-5网络增加层数, 因为其卷积核为5*5,会造成网络训练中参数急剧变大,在小样本量的情况下,训练会变 得非常困难。因此我们受到VGGNet网络模型的启发,VGGNet网络使用两个3*3的卷积核 以获得和一个5*5的卷积核同样面积的感受野。VGGNet结构相对简单,卷积核和池化核的 大小都是3*3和2*2,其好处是可以通过深化网络结构来提取具有更好分类性能的图片特 征,具有更强的特征提取能力和占用更少的内存空间,网络中需要训练的超参数也大大减 少,因此更容易进行深度模型的训练a】。本实验完全舍弃上一部分改进的LeNet-5网络模 型,设计了一个与VGG网络模型类似的网络结构,下文用VGG-like来表示。图4-13显示 了 VGG-like网络模型中的一个局部特征提取块(local feature exacting block, LFEB),每个 LFEB由两个卷积层、两个批标准化层(BN)、两个非线性校正单元(ReLU)层和一个最大 池化层(Max Pooling)组成。VGG-like网络模型优势在于在两个3*3卷积之间增加了 BN层 和ReLU层以增强非线性特性[70],通过增加网络层数以获得更高的泛化能力,提升对病态嗓 音的识别能力,加入的BN层可以加快网络的收敛速度。

VGG-like网络模型包含4个LFEBs局部特征提取模块、一个全连接层和一个分类输 岀层,总体架构如图4-14所示。该网络结构的功能是对经过相空间重构获得的二维轨迹图 像进行卷积操作,从原始信号中获取深度特征。VGG-like网络的输入设置为224*224尺寸 大小的二维图像,因此网络中每个卷积核和池化核的尺寸都是二维的,卷积核的尺寸为3*3, 每一个局部特征提取块中卷积核的数目为8、16、32、64,将卷积过程中的步幅大小设置 为1。池化核的尺寸为2*2,步幅大小为2。该网络结构各层参数设置如表4-3所示:

层数 通道数 核尺寸 步长 补零 BN 池化
Convl 8 3*3 1 1 BN Max (2*2)
Conv2 16 3*3 1 1 BN Max (2*2)
Conv3 32 3*3 1 1 BN Max (2*2)
Conv4 64 3*3 1 1 BN Max (2*2)
FC 2 N/A N/A N/A N/A N/A

表4-3 VGG-like网络各层参数

4.5.5仿真实验分析

4.5.5.1基于单通道相空间特征实验结果分析

本实验以Windows7操作平台为基础,利用Matlab2018所具有的深度学习算法网络框 架构建了一个VGG-like的网络模型。实验在MEEI数据库和自建临床数据库中进行。为了 训练VGG-like模型的权重参数,我们使用了传统的反向传播技术、交叉嫡损失函数和随机 梯度下降算法。初始参数设置为:卷积层和全连接层的初始权重使用高斯分布随机生成, 均值为0,标准差为0.1,网络的初始偏置参数设置为零,网络中最大迭代次数max-epoch
设置为20,批尺寸batch - size设置为15,基本学习率learnRate设置为0.001 □实验结果采 用了5折交叉验证的方式,为直观对训练模型进行评估,在两个数据库上绘制了5折交叉 实验中最佳的训练和预测曲线。图4-15和图4-17分别显示了 MEEI数据库和自建临床数 据库二分类识别中训练集和测试集准确率曲线,图4-16和图4-18分别显示了 MEEI数据 库和自建临床数据库二分类识别中训练集和测试集损失函数曲线。

图4-15 MEEI数据库单通道相空间特征病理嗓音二分类准确率曲线

迭代次数

图4-16 MEEI数据库单通道相空间特征病理嗓音二分类损失函数曲线

图4-17自建临床数据库单通道相空间特征病理嗓音二分类准确率曲线

迭代次数

图4-18自建临床数据库单通道相空间特征病理嗓音二分类损失函数曲线

从图4-16和图4-18可以看出,训练初始阶段,损失函数在下降过程中波动很大,但 随着迭代次数的增加,训练损失和测试损失不断减少,网络在训练过程中不断学习,损耗 函数曲线最终稳定一个较小的值,表明整个网络模型训练持续优化,网络性能不断提高。 两个数据库上准确率曲线也在逐渐上升,最后,MEEI数据库的识别率稳定在94.38%,自 建临床数据库的识别率稳定在89.18%。5折交叉验证得到的识别结果基本保持一致,没有 出现较大的波动,说明搭建的卷积神经网络在训练模型时的准确性。表4-4统计了两个数 据库5折交叉验证实验结果准确率,并以5折实验结果的平均值作为最终的分类精度识别 结果,在两个数据库上的平均识别率分别为94.23%和89.08%o实验结果表明,与改进的 LeNet-5网络相比,在MEEI数据库上的平均识别率提高了 3%左右。在对正常和病态嗓音 信号的二维相空间轨迹图进行分类识别时,VGG-like网络比改进的LeNet-5网络具有更强 的特征提取能力。

4-4不同数据库单通道相空间特征病理嗓音二分类5折交叉识别结果准确率(%)

叉数

准确

1 2 3 4 5 平均识 别率
MEEI数据库 94.20 93.98 94.26 94.38 94.32 94.23
自建临床数据库 89.15 89.18 88.90 89.01 89.18 89.08

4.5.5.2基于三通道相空间特征实验结果分析

通过分析单通道相空间特征实验结果可以看岀,在两个数据库上随着迭代次数的增加, 训练集的识别率也在增加,但是训练集最终的识别率并没有稳定在100%,明显可以看出 有较小的波动,一方面说明所选取的特征覆盖面较窄,并不能够完全的描述病理嗓音信号 的特征,因此利用卷积神经网络进行训练时不能训练出一个较好的模板,所以在进行测试 时导致识别率偏低。而实验中我们也仅使用单通道的特征,在卷积的过程中学习到的特征 比较单一,卷积神经网络通常含有RGB三个通道,接下来的实验考虑输入三通道的相空 间特征进行网络的训练和测试。

对于CNN而言,当输入的图像是含有RGB三通道的彩色图像时,在进行卷积操作时, 会依据一定的准则将卷积特征提取的过程转移到三通道的特征提取中。如图4-19所示,从 图中对应的操作可以得出,当输入的图像为三通道的RGB彩色图时,只需要使用和通道 数相同的卷积核,对每一个通道上的数据并行的进行卷积操作,然后将三个通道提取的特 征进行相加最后映射到一个通道上即可。

图4-19三通道下卷积核特征提取过程
对于空间中的立体几何,要想全面的了解它的轮廓形状,往往要对其进行三视图的投 影。嗓音信号经过相空间重构之后,将低维信息映射到高维空间,考虑到如果只将其进行 一个方向的投影并不能完全的描述其轨迹轮廓特征,根据三视图的原理我们分别对重构后 的相图进行三个方向的投影,即+ (^x(n),x(n + 2T))> (x(n + T),x(n +

2门)很表示延迟时间G三个方向的二维投影将作为CNN三个通道输入训练深度模型。同 样的,由于CNN运算特性的要求,需对投影得到的三个维度的特征图进行归一化处理, 图像归一化尺寸为224*224大小。以MEEI数据库为例,经Matlab仿真之后的投影结果如 图4-20所示:

1正常 1正常 1正常 1病态 1病态 1病态

图 4-20 MEEI 数据库正常和病理样本(%(n),x(n + T))、(%(n),x(n + 2T))、(%(n + T\x(n + 2T))三个
方向的二维投影轨迹图和预处理的样本

进行此部分实验时,使用和上部分完全相同的网络结构,训练和测试过程中采用5折 交叉验证的方式,最后取5折实验结果的均值来检验训练模型的准确性。首先,利用三通 道相空间特征在三个数据库上进行正常和病态嗓音的二分类识别。图4-21至4-26分别绘 制了三个数据库中5折实验中最佳准确度和训练的准确度和损失函数曲线。图4-21显示在 MEEI数据库上,随着迭代次数的增加,训练集和测试集的准确率也在逐渐的增加,最终 的分类准确度基本接近100%o如图4-23所示,在自建临床数据库中,训练集的准确率最 终也稳定在100%,如图4-25所示,在SVD数据库中,训练集的准确率最终也稳定在100%, 这三个数据库训练集的识别率足以表明三个通道的相空间特征可以更准确地表达病态嗓 音信号的疾病特征,训练得到的深度模型能够更好的对正常和病态语音信号进行分类。经 过20次迭代之后,MEEL自建临床和SVD数据库上测试集的识别率最终稳定在99.80%、 96.28%和97.99%。表4-5统计了两个数据库的5折交叉验证的识别率,并将五次实验的识 别结果的平均值作为最终的分类准确度。经过5折交叉测试之后,三个数据库的平均分类 准确率分别为99.42%、95.88%和97.30%。从实验结果可以看出,采用相同方法对三个数 据库的正常和病态嗓音信号进行二分类识别时,MEEI数据库的识别率总是高于其他两个 数据库,分析原因可能是因为MEEI数据库是一种用于商业开发的病理嗓音数据库,其中 的每一个样本都是经过精心选择的典型病例,而自建的临床数据库完全来自耳鼻喉科的临 床数据一段时间,病例分布包括不同严重程度的各种疾病,这可能是不同数据库之间识别 率差异的主要原因。

图4-26 SVD数据库三通道相空间特征病理嗓音二分类损失函数曲线

4-5不同数据库三通道相空间特征病理嗓音二分类5折交叉实验结果准确率(%)

叉数

准确

1 2 3 4 5 平均识 别率
MEEI数据库 99.59 99.19 99.19 99.80 99.29 99.42
自建临床数据库 95.59 95.98 96.28 95.86 95.70 95.88
SVD数据库 96.42 97.76 96.59 97.76 97.99 97.30

接下来对MEEI数据库和SVD数据库中的正常、声带麻痹和声带非麻痹三类嗓音信 号使用同样的方法进行三分类的测试,探究使用相空间重构和卷积神经网络分类算法是否 适用于声带类嗓音疾病的分类情况。训练和测试过程中仍然使用了 5折交叉验证的方式。 表4-6给出了 MEEI数据库和SVD数据库三分类识别结果的混淆矩阵。从混淆矩阵可以看 出,在MEEI数据库上,正常嗓音、声带麻痹和声带非麻痹的最大识别率分别为100%、 82.05%和97.19%。在SVD数据库上,正常嗓音、声带麻痹和声带非麻痹的最大识别率分 别为99.61%、95.34%和90.99%。在MEEI数据库中,声带麻痹的识别率最低,很大一部 分都被识别为声带非麻痹,分析原因可能在于在MEEI库中,经过分割之后声带麻痹样本 仅有390例,而其他两类样本均为2000多例,麻痹样本过少,不能保证样本的丰富度,不 足以训练准确的深度模型。在SVD数据库中,主要的误识别也在于声带麻痹和声带非麻痹 之间,所以要想提高识别率关键在于寻找最能表现声带类嗓音疾病病理性特征。表4-7统 计了两个数据库5折交叉实验三分类测试结果的准确率,其中5折交叉实验的最大分类准 确率分别为96.95%和92.85%,平均识别率分别为96.04%和92.27%。在MEEI库和SVD 库进行三分类时,声带麻痹和声带非麻痹两种嗓音疾病之间存在较大的混叠,考虑原因可 能是病理嗓音学专家在对临床数据进行标注时,没有统一的标准,不同的声带类嗓音疾病 在早期又有很大的相似之处,并且声带病变并不是一种单一的嗓音疾病,如声带麻痹可能 伴有声带小结和声带息肉,声带小结伴有声带麻痹和声带水肿等,临床诊断时,医生只是 根据某种嗓音疾病的严重程度进行疾病的诊断,所以在实验过程中会存在一定的误识别。

4-6 MEEI数据库和SVD数据库病理嗓音信号三分类5折交叉识别结果混淆矩阵(%)

父叉数 MEEI数据库 SVD数据库
  正常 麻痹 非麻痹 正常 麻痹 非麻痹
1 正常 98.33 0 1.67 99.03 0.78 0.19
麻痹 1.28 71.79 26.92 0.28 87.99 11.72
非麻痹 0.47 2.81 96.72 0 9.01 90.99
2 正常 100 0 0 99.61 0.39 0
麻痹 1.28 82.05 16.67 0.42 91.38 8.19
非麻痹 1.17 2.58 96.25 0 11.48 88.52
3 正常 98.96 0.42 0.62 99.03 0.78 0.19
麻痹 0 66.67 33.33 0.28 87.99 11.72
非麻痹 0.47 2.34 97.19 0 9.01 90.99
4 正常 99.38 0 0.62 99.61 0.39 0
麻痹 0 69.23 30.77 0.14 95.34 4.52
非麻痹 0.23 1.40 93.36 0 20.85 79.15
5 正常 98.96 0 1.04 99.61 0.39 0
麻痹 0 65.38 34.62 0.42 91.38 8.19
非麻痹 0.47 2.34 97.19 0 11.48 88.52

表4-7 MEEI数据库和SVD数据库三通道相空间特征病理嗓音三分类5折交叉实验结果准确率(%)

叉数

准确

1 2 3 4 5 平均识 别率
MEEI数据库 95.53 96.95 95.64 96.56 95.53 96.04
SVD数据库 92.11 92.85 92.11 91.44 92.85 92.27

近年来,病例嗓音二分类的准确率已经很高。为了更好地评估本文所提方法,表4-8和 4-9分别从数据库,使用的特征,识别机及准确性等方面将本文所使用的方法和其他文献 提岀的方法进行对比。由于特征的提取方法和训练所用模型不同,因此不同文献的相关研 究工作的识别结果仅作为粗略参考。

表4-8本方法与其他病态嗓音二分类实验结果对比(%)

作者 数据库 特征 分类方法 平均识别 率%
S. Fang et al.[25] MEEI MFCC DNN 99.32
Ghulam M.[23] MEEI/SVD 隔行导数模型 SVM 99.38/93.20
Alnasheri A.[24] MEEI/SVD 自相关系数和爛 SVM 99.96/92.79
许远静两 MEEI/自建临床 特征组合 SVM 99.67/96.08
Guan Ha】 MEEI MFCC谱图 CNN 93.8
本文 MEEI 多尺度非线性特征 /相空间重构 SVM/CNN 99.18/99.42
本文 自建临床数据 库 多尺度非线性特征 /相空间重构 SVM/CNN 97.87/95.88
本文 SVD 多尺度非线性特征 /相空间重构 SVM/CNN 96.76/97.36

表4-9本方法与其他病态嗓音三分类实验结果对比(%)

作者 数据库 特征 识别机 分类问题 平均识别率
Leonardo A[28] 自建数据库 MFCC+声门参

GMM 正常/麻痹/小结 97.2
Ghulam M[30] MEEI 隔行导数模 型 SVM 囊肿/息肉/麻痹 95.57
Mohamed D[31] SVD MFCC+抖动

+闪烁

NBN 正常/麻痹/痉挛 90
本文 MEEI/SVD 多尺度非线 性特征 SVM 正常/麻痹/非麻痹 98.32/92.89
本文 MEEI/SVD 相空间重构 CNN 正常/麻痹/非麻痹 96.04/92.27

从表4-8可以看岀,在病理嗓音二分类问题上,本文使用的相空间重构理论和CNN分 类算法,在MEEI数据库上识别率可以达到99.42%, SVD数据库上识别率可以达到97.36%。 与文献[24]相比,在MEEI数据库上的识别率稍有逊色,但是在SVD数据库上识别率有较 大的提升,体现本文算法在不同数据库上有较高的适应性和鲁棒性。在二分类问题上,本 文使用的CNN分类算法在MEEI数据库和SVD数据库的识别率高于本文使用SVM分类 的识别率,体现了 CNN在特征提取和分类的优势,而自建临床数据库的识别率SVM要好 于CNN,考虑原因可能是自建数据库自身的原因,因为此数据库是由一个医生靠对患者的 临床检测以及自己的临床经验对数据进行标注,不像MEEI和SVD数据库是团队共建数 据库,具有更强的研究性。与其他文献相比,在病理嗓音识别常用的MEEI数据库和SVD 数据库上的识别率也处于比较领先的一个水平,为病理嗓音的诊断和治疗提供了可行的参 考。从表4-9可以看出,对声带类嗓音疾病进行细分类研究时,在声带类嗓音疾病的分类 问题上缺乏一致性,不同的文献针对不同的分类问题,因此本文列举的几篇参考文献中的 识别率并不能进行严格的对比分析,仅供大致参考。就目前而言,对细分类的研究工作并 不多见,本文中使用SVM和CNN在MEEI数据库进行三分类识别,得到的识别率分别为 98.32%和96.04%,在SVD数据库上得到的识别率分别为92.89%和92.27%。相比于文献 [31]在SVD数据库上的识别率具有一定的优势。在声带类嗓音疾病三分类识别中,在本实 验中,使用CNN的识别效果稍逊色于SVM,考虑原因可能是因为使用CNN进行模型训 练时样本存在局限性,样本量过少不能训练好的分类模板,同时也体现了 SVM在小样本 分类上面的优势。总体来说,本文涉及的两种分类方法,无论在嗓音疾病二分类还是三分 类的识别中,在目前的研究水平中也处于较好的结果,对正常和病理嗓音信号的识别具有 一定的普遍适用性。当使用CNN进行分类时,可以避免因提取特征时人为主观因素导致 特征的鲁棒性不高的问题。然而,当使用卷积神经网络进行分类和识别时,由于医学样本 难以获得,样本的数量和丰富度受到严重限制,在训练深度模型时,小样本容易过度拟合。 本文还提出通过数据分割来增加样本量。在后期的研究中获得更多的临床医学样本,提高 样本的数量和丰富程度是一个主要问题,同时也可以避免模型训练过程中的过度拟合问题。

4.6本章小结

本章的主要内容是首先对卷积神经网络的基本结构等原理性知识以及语音信号相空 间重构特性进行了详细的介绍。本章的主要工作在于:第一部分,利用嗓音信号的延迟时 间参数将一维的语音信号转化为二维矩阵的形式,当使用延迟时间构造二维矩阵时,可以 使相邻向量之间的信息量增加,然后使用改进的LeNet-5网络进行分类识别,在MEEI和 自建临床数据库得到的识别率分别为94.64%和94.26%o第二部分通过相空间重构将正常 和病理语音信号从一维信号变换为高维空间轨迹图像的形式。对重构的三维空间轨迹图形 进行投影,转换为二维轨迹图像。然后利用设计的VGG-like网络模型从图像处理的角度学 习嗓音信号轨迹图像的特征,完成正常和病理嗓音信号的分类。单方向投影的轨迹图,所 包含的特征信息比较单一,使用卷积神经网络进行局部特征提取时,大大的损失了对高维 相空间特征的充分利用。根据RGB三通道特征图输入构想,将三维相空间轨迹图进行三 个方向的投影,将三个方向投影得到的二维轨迹图作为VGG-like网络的RGB三通道的输 入。这样可以确保三维相空间特征得到充分的利用,使提取的特征能有效的区分病理嗓音 信号的不同特征。最终在MEEI数据库、自建临床数据库和SVD数据库进行正常和病态嗓 音二分类测试时,平均识别率分别为99.42%、95.88%和97.36%。在MEEI数据库和SVD 数据库识别正常、麻痹和非麻痹三类嗓音信号时,平均识别率分别为96.04%和92.27%o 仿真结果表明,本章提岀的基于相空间重构和卷积神经网络的病态嗓音识别算法能够达到 良好的分类准确率和较强的鲁棒性,对正常和病理嗓音信号的识别具有一定的普遍适用性, 同时对声带类嗓音疾病也具有一定的分类效果。

第5章总结与展望

5.1总结

在病理嗓音识别中,以往的研究主要局限于对嗓音的二分类识别。而声带作为主要的 发声器官,其病变是导致发音障碍的主要原因,临床表现为各种声带类嗓音疾病。由于声 带类嗓音疾病之间的病理特性极其相似,所以提取出可以表现声带疾病对嗓音影响的特征 是声带类嗓音识别的关键。在对声带类嗓音疾病进行识别时,本文考虑到嗓音在发生病变 时,不同的嗓音疾病会产生不同的噪声,并且不同的声带类嗓音疾病特征可能岀现在不同 的波段,利用以往的在整体语音上做频域或时域分析的方法,无法有效地将特征信号完全 提取出来,识别效果不够理想。本文使用小波包多尺度分析的方法将原始嗓音信号进行频 带的划分,然后提取四种非线性参数的多尺度特征。

首先,原始嗓音信号经过小波包多尺度分析,划分为不同的频带,这样可以从每个频 带反映不同嗓音疾病的特性。然后对每一频带提取Hurst特征、2-Renyi®特征、Db和FMMI。 使用组合特征并加入基频F0,在三个数据库上进行二分类识别的实验,在MEEI数据库、 自建临床数据库和SVD数据库得到的最高识别率均为100%及平均识别率分别为99.15%、 97.87%和96.67%o接着对MEEI数据库和SVD数据库中在正常嗓音、声带麻痹和声带非 麻痹三种嗓音信号进行设别,在MEEI数据库上三种嗓音的最佳识别率分别为98.11%、 99.07%和97.92%,最佳的平均识别率为98.32%。在SVD数据库上三种嗓音信号的最佳识 别率分别为96.05%、94.05%和93.06%,最佳的平均识别率为92.89%o实验结果表明,经 过小波包多尺度分解之后提取的特征参数能够更好的表现声带类嗓音信号的病理性特征, 充分说明了进行声带类嗓音识别时多尺度化的重要性。

为了解决传统机器学习方法中的分类精度取决于提取特征的有效性这一局限性,本文 还进行了基于卷积神经网络的病态嗓音识别研究。首先需要考虑的就是如何将一个一维的 语音信号转化为二维矩阵的形式,本次实验中采用两种方法构造二维矩阵:1.基于延迟时 间的病态嗓音识别。使用延迟时间参数将一维的语音信号转化为二维矩阵的形式,当使用 延迟时间构造二维矩阵时,可以使相邻向量之间的信息量增加,然后使用改进的LeNet-5 网络进行分类识别。在MEEI和自建临床数据库上最终的分类结果分别为94.64%和94.26%, 仿真结果表明,在构造二维矩阵时使用延迟时间参数的有效性。2.基于相空间重构和卷积 神经网络的病理嗓音识别。通过相空间重构将正常和病理语音信号从一维信号变换为高维 空间轨迹图像的形式。对重构的三维空间轨迹图形进行投影,转换为二维轨迹图像,然后 从图像处理的角度出发,利用设计的VGG-like网络模型学习嗓音信号轨迹图像的特征,实 现正常和病理嗓音信号数据的分类,从而避免了复杂的人工特征提取过程。实验过程中, 单个方向的投影作为卷积神经网络的输入所包含的信息比较单一,在两个数据库上的分类 效果不佳o最终考虑使用三个方向的投影作为CNN网络RGB三通道的输入,首先在MEEL 自建临床和SVD三个数据库上进行二分类测试,最终得到的平均识别率分别为99.42%、 95.88%和97.30%,接着在MEEI和SVD数据库上进行正常、麻痹和非麻痹三分类的识别, 最终的平均识别结果为96.04%和92.27%。仿真结果表明,使用相空间重构和卷积神经对 病态嗓音信号进行分类效果良好,并且获得较好的鲁棒性。

5.2创新点

本课题研究的创新点主要表现为:

  • 针对声带类嗓音疾病识别过程中单尺度特征不能很好的体现声带类嗓音的病理特 性这一问题,本文引入了小波包多尺度分析的信号时频分析方法,将原始嗓音信号分解为 不同的频带,根据前人研究成果,提取四种在分类正常和病态嗓音时鲁棒性和贡献率较好 的特征进行实验,实验结果表明多尺度特征能够提高声带类嗓音疾病的识别率。
  • 针对传统机器学习算法在病态嗓音分类过程中分类准确度取决于提取的特征的有 效性这一局限性,提取了使用延迟时间和卷积神经网络对正常和病态嗓音信号进行分类识 别。利用语音信号自身的混沌特性,使用延迟时间将以为语音信号转化为二维语音信号M * N,基于LeNet-5模型,然后通过Matlab平台搭建的具有3个卷积层的神经网络模型实现 正常和病态嗓音信号的分类识别。
  1. 针对非线性动力学特征能够有效的描述正常和病态嗓音信号的声学特性,提出了将 相空间重构理论引入到嗓音信号的特征提取中,利用延迟时间和嵌入维数理论实现对正常 和病态嗓音信号的相空间重构,从而获得嗓音信号的重构轨迹图。根据三视图的原理分别 对重构后的相图进行+ (%(nXx(n + 2T)). (x(n + TX%(n + 2T))三个方向 的投影,分别作为卷积神经网络RBG三通道的输入,将一维语音信号转化为二维图像,生 成嗓音信号的重构轨迹图形样本。将生成的轨迹图形样本输入到搭建的VGG-like卷积神 经网络中提取图形特征,同样得到了较好的识别结果。

5.3展望

自动病理嗓音检测系统的目标是为了在嗓音疾病的临床检测上,成为医生诊断嗓音疾 病的一种有效辅助工具,同时减少因喉内窥镜检测给患者带来的痛苦。就目前的研究成果 而言,要想实现智能医疗在临床上的应用还有一定的差距,普遍存在以下问题需要解决:

  1. 特征提取:就目前研究中使用的声学特征参数,在对声带嗓音疾病进行分类中具有 一定的局限性,因此需要寻找更有效的特征或者预处理方法。本文的研究中,也只是对正 常、声带麻痹和声带非麻痹三种嗓音信号进行分类研究,声带疾病与其他类型的疾病、其 他类型疾病之间的识别也是未来研究的热点问题。
  2. 数据库:由于实验数据为临床医学样本,涉及患者隐私并且需要专业医生对数据进 行标注,导致采集比较困难,样本量较少,尤其是使用深度学习训练深度模型时,会造成 过拟合现象。在后期的研究中获得更多的临床医学样本,提高样本的数量和丰富程度是一 个主要问题,同时也可以避免模型训练过程中的过度拟合问题。

3•临床应用:本文中特征提取、传统机器学习以及后面的深度学习算法都是基于Matlab 平台的仿真实验。基于计算机自动语音病理检测和分类系统,能够有效地用于语音障碍评 估,为嗓音疾病的早期诊断和治疗提供有效的辅助。目前有关病理嗓音检测的准确度和实 时性还有待进一步的研究,高效智能化将成为病理嗓音识别的更深层次的一个研究目标。

  1. 鲁棒性:目前的研究中,虽然使用不同的数据库进行识别率的测试,验证特征和方 法的鲁棒性,但实验结果都是具有单个数据库上的测试,后期在确保特征鲁棒性的问题上 可以进行混库或者跨库的测试。

参考文献

  • Markaki M, Stylianou Y. Voice pathology detection and discrimination based on modulation spectral features [J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2011, 19(7): 1938-1948.
  • 江胜,余养居.嗓音外科学[M].上海:世界图书出版公司2004: 6-7.
  • Arnold G E. Vocal rehabilitation of paralytic dysphonia. II. Acoustic analysis of vocal function [J]. A.m.a.archives of Otolaryngology, 1955, 62(6):593.
  • Palmer J M. Hoarseness in laryngeal pathology. A review of the literature [J]. Laryngoscope, 2010, 66(5):500-516
  • Lieberman P. Some Acoustic Measures of the Fundamental Periodicity of Normal and Pathologic Larynges [J]. The Journal of the Acoustical Society of America, 1963, 35(3):344-353.
  • Feijoo S, Hernandez C, Carollo A, et al. Acoustic evaluation of glottal cancer based on short-term stability measures[C]// Century. Proceedings of the International Conference of the IEEE Engineering in. IEEE, 2002:675-676 vol.2.
  • Hansen J H L, Gavidia-Ceballos L, Kaiser J F. A nonlinear operator-based speech feature analysis method with application to vocal fold pathology assessment[J]. Biomedical Engineering IEEE Transactions on, 199& 45(3):300-313.
  • Hossain, Shamim M . Patient State Recognition System for Healthcare Using Speech and Facial Expressions [J]. Journal of Medical Systems, 2016, 40(12):272.
  • Godino-Llorente J I, Pedro Gomez-Vilda, Blanco-Velasco M . Dimensionality Reduction of a Pathological Voice Quality Assessment System Based on Gaussian Mixture Models and Short-Term Cepstral Parameters [J]. IEEE Transactions on Biomedical Engineering, 2006, 53(10):1943-1953.
  • Ritchings R T , Mcgillion M , Moore C J . Pathological voice quality assessment using artificial neural networks [J]. Medical Engineering and Physics, 2002, 24(7-8):561-564.
  • Peng C, Chen W, Zhu X, et al. Pathological Voice Classification Based on a Single Vowel's Acoustic Features[C]// IEEE International Conference on Computer and Information Technology. IEEE, 2007:1106- 1110.
  • 徐天琪,周婉艺,葛怡雯,等.采用随机森林方法的声带小结与声带囊肿识别研究[J].信息化研 究,2017,43(01):37-41.
  • Zhang X, Tao Z, Zhao H. Pathological Voice Recognition by Deep Neural NetworkfJ]. The 2017 4th International Conference on Systems and Informatics,2017(ICSAI): 464-468
  • 于燕平,胡维平.病态嗓音特征的小波变换提取及识别研究[J].计算机工程与应用,2009, 45(22):194-196.
  • Patricia Henriquez, Jesus B. Alonso, et al. Characterization of Healthy and Pathological Voice Through Measures Based on Nonlinear Dynamics [J], IEEE Transactions on Audio, 2009, 17(6): 1186-1195.
  • 高俊芬,胡维平.基于非线性动力学和高斯混合模型/支持向量机的病态嗓音识别与研究[J].生物医 学工程学杂志,2012(4):750-753.
  • Travieso C M, Alonso J B, Orozco-Arroyave J R, et al. Automatic Detection of Laryngeal Pathologies in Running Speech Based on the HMM Transformation of the Nonlinear Dynamics [J]. 2013, 7911:136-143.
  • Muhammad G, Melhem M. Pathological voice detection and binary classification using MPEG-7 audio features [J]. Biomedical Signal Processing & Control, 2014, ll(l):l-9.
  • Pietka, J. Kawa, and W. Wieclawek. Quantification of Linear and Non-linear Acoustic Analysis Applied to Voice Pathology DetectionfJ]. Information Technologies in Biomedicine, Volume 4, Advances in Intelligent Systems and Computing 284, 2014: 355-364.
  • 王厚英.病态嗓音特征参数的优化研究[D].广西师范大学,
  • 曾颖.病态嗓音特征提取研究[D].广西师范大学,
  • 常静雅,张晓俊,顾玲玲,等.小波域能量谱和非线性降维的病理嗓音识别[J].计算机工程与应用, 2017, 53(2):166-171.
  • Muhammad G, Alsulaiman M, Ali Z, et al. Voice pathology detection using interlaced derivative pattern on glottal source excitation [J]. Biomedical Signal Processing & Control, 2017, 31:156-164.
  • Al Nasheri A , Muhammad G , Alsulaiman M , et al. Voice Pathology Detection and Classification using Auto-correlation and entropy features in Different Frequency Regions [J]. IEEE Access, 2017:1-1.
  • Fang S H, Yu T, Hsiao M J, et al. Detection of Pathological Voice Using Cepstrum Vectors: A Deep Learning ApproachfJ]. Journal of Voice, 2018.
  • 许远静.病态嗓音特征提取与识别算法的研究[D].广西师范大学,2018.
  • 袁悦.可变余弦窗延拓EEMD的声带疾病嗓音研究[D].苏州大学,2016.
  • Leonardo A F M , Kohler M , Vellasco M M B R , et al. Analysis and Classification of Voice Pathologies Using Glottal Signal Parameters [J]. Journal of Voice Official Journal of the Voice Foundation, 2016, 30(5):549-556.
  • Muhammad G , Altuwaijri G , Alsulaiman M , et al. Automatic voice pathology detection and classification using vocal tract area irregularity [J]. Biocybernetics & Biomedical Engineering, 2016, 36(2):309-317.
  • Muhammad G , Alsulaiman M , Ali Z , et al. Voice pathology detection using interlaced derivative pattern on glottal source excitation [J]. Biomedical Signal Processing and Control, 2017, 31:156-164.
  • Mohamed D, Mhania G, et al. Vocal folds pathologies classification using Naive Bayes Networks [J]. 2017 6thInternational Conference on Systems and Control, ICSC 2017, 2017:426-432
  • Harar P , Alonso-Hernandezy J B , Mekyska J , et al. Voice Pathology Detection Using Deep Learning: a Preliminary Study[C]// International Conference & Workshop on Bioinspired Intelligence. IEEE, 2017.
  • Wu H, Soraghan J, Lowit A, et al. A deep learning method for pathological voice detection using convolutional deep belief networks[C]//Interspeech 2018. 2018.
  • Guan H, Lerch A. Learning Strategies for Voice Disorder Detection[C]//2019 IEEE 13th International Conference on Semantic Computing (ICSC). IEEE, 2019: 295-301
  • Massachusetts Eye and Ear Infirmary, Voice Disorders Database, Version 1.03. Kay Elemetrics Corp., Lincoln Park, NJ, 1994, CD-ROM.
  • 赵冰心,胡维平.基于爛和支持向量机的病态嗓音识别[J].中国生物医学工程学报,2013, 32⑸:546-
  • J. Barry and M. Piitzer. Saarbrucken voice database. Institute of Phonet- ics, University of Saarland. Accessed: Mar. 10, 2017. [Online]. Available: http://www.stimmdatenbank.coli.

uni-saarland.de/

  • 张志明,杨式鳞.病态嗓音基频和音域的变化[J].临床耳鼻咽喉科杂志,2000, 14(6): 260-261.
  • Puts D A, Hill A K, Bailey D H, et al. Sexual selection on male vocal fundamental frequency in humans and other anthropoids.[J]. Proc Biol Sci, 2016, 283(1829):20152830.
  • Kilig M A, Ogiit F, Dursun G, et al. The effects of vowels on voice perturbation measures [J]. Journal of Voice, 2004, 18(3):318-324.
  • Lechien J R, Delvaux V, Huet K, et al. Phonetic Approaches of Laryngopharyngeal Reflux Disease: A Prospective Study.[J]. Journal of Voice Official Journal of the Voice Foundation, 2016, 31(1).
  • 王炳锡,屈丹,彭煩.实用语音识别基础[M].国防工业出版社,
  • Chen Y , Ye X , Zhang J , et al. Effects of trends and seasonalities on robustness of the Hurst parameter estimators [J]. IET Signal Processing, 2012, 6(9):849-856.
  • Thompson C , Mulpur A , Mehta V , et al. Transition to chaos in acoustically driven flows[J]. The Journal of the Acoustical Society of America, 1991, 90(4):2097-2108.
  • 赵晨.基于混沌理论的L-PLC信道特性预测研究[D].河北大学,2011.
  • Kapur J N. Measures of Information and Their Applications [J]. Biometrics, 1996, 52(1).
  • Zhao Guan-hua; Hao Min Incremental learning algorithm of least squares support vector machines based on Renyi entropy. Internati- onal Conference on Management Science and Engineering [J]. September 14- 16, 2009, page(s): 95-100.
  • Vladimir N. Vapnik. The Nature of Statistical Learning Theory[M]. Springer-Verlag New York 1995,1995: 1-188
  • Fonseca E S , Guido R C , Silvestre A C , et al. Discrete wavelet transform and support vector machine applied to pathological voice signals identification[C]// IEEE International Symposium on Multimedia. IEEE, 2005.
  • Hosseini P T , Almasganj F , Emani T , et al. Local discriminant wavelet packet basis for voice pathology classification[C]// International Conference on Bioinformatics & Biomedical Engineering. IEEE, 2008.
  • Heris H K , Aghazadeh B S , Nikkhah-B ahrami M . Optimal feature selection for the assessment of vocal fold disorders [J]. Computers in Biology and Medicine, 2009, 39(10):860-868.
  • Little M A , Mcsharry P E , Roberts S J , et al. Exploiting Nonlinear Recurrence and Fractal Scaling Properties for Voice Disorder Detection [J]. BioMedical Engineering OnLine,6,1(2007-06-26), 2007, 6(1):23-23.
  • 赵云,曾新吾.调制气流声源气声转换过程模型研究[J].声学学报,2011(3):291-300.
  • 孙永柱,崔鹏程.计算机语言频谱分析系统评价噪音功能的研究[J].中国组织工程研究,2001, 5(10):62-63.
  • Jiang Y, Peng C K, Xu Y. Hierarchical entropy analysis for biological signals [J]. Journal of Computational & Applied Mathematics, 2011, 236(5):728-742.
  • Al Nasheri A , Muhammad G , Alsulaiman M , et al. Voice Pathology Detection and Classification using

Auto-correlation and entropy features in Different Frequency Regions [J]. IEEE Access, 2017:6961-6974.

  • Umapathy K , Krishnan S . Feature analysis of pathological speech signals using local discriminant bases technique [J]. Medical & Biological Engineering & Computing, 2005, 43(4):457-464.
  • Gu J , Wang Z , Kuen J , et al. Recent Advances in Convolutional Neural Networks [J]. Computer Science, 2015.
  • Lecun Y , Bengio Y . Convolutional networks for images, speech, and time series[M]// The handbook of brain theory and neural networks. MIT Press, 1998.
  • Ioffe S , Szegedy C . Batch normalization: accelerating deep network training by reducing internal covariate shift[C]// International Conference on International Conference on Machine Learning. JMLR.org, 2015.
  • I Ullah I , Hussain M , Qazi E U H , et al. An automated system for epilepsy detection using EEG brain signals based on deep learning approach [J]. Expert Systems with Applications, 2018, 107:61-71.
  • LeCun, C.Corinna. THE MNIST DATABASE of handwritten digits, http://yann.lecun.com/exdb/mnist/
  • Neumaier A. Solving Ill-Conditioned and Singular Linear Systems: A Tutorial on Regularization [J]. SIAM Review, 199& 40(3):636-666.
  • Kohavi R , Sommerfield D . Feature Subset Selection Using the Wrapper Method: Overfitting and Dynamic Search Space TopologyfC]// International Conference on Knowledge Discovery & Data Mining. AAAI Press, 1995.
  • Aho K , Derryberry D W , Peterson T . Model selection for ecologists: The worldviews of AIC and BIC [J]. Ecology, 2014, 95(3):631-636.
  • Takens F. Detecting strange attractors in turbulence[M]//Dynamical systems and turbulence, Warwick 1980. Springer, Berlin, Heidelberg, 1981: 366-381.
  • 岳顺,翟长治,李小奇.基于GP算法奇异谱分析嵌入维数的确定及应用[J].水利与建筑工程学报, 2015(5):97-101.
  • 甘德英.基于元音/a/与/i/的病态嗓音识别与研究[D].广西师范大学,2014.
  • Simonyan and A. Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition, 2014, arXiv:1409.1556v6, pp. 1-14.
  • Agarap AF M . Deep Learning using Rectified Linear Units (ReLU)[J]. 2018.

致谢

本课题的研究与论文的撰写均在导师胡维平教授的悉心指导下完成,在课题研究过程 中,曾遇到很多困难,如研究工作的开展、文献的阅读和理解、论文时间的安排等,在胡 老师的帮助与指导下,我逐一克服了困难。在此首先要感谢导师,三年来,严谨治学的态 度,精益求精的科学精神,使我受益匪浅;三年来,我学习生活上的进步和课题研究的顺 利进展,无不凝聚着导师的心血;三年来,我不仅从胡老师身上学到了许多专业知识,更 学到了为人正直、待人真诚等做人的道理。在此对胡老师表达深深的敬意和衷心的感谢! 从胡老师身上学到的这些素质将会使我在未来的困难面前多一份自信和勇气,在未来的道 路上走的更好。

感谢广西师范大学电子工程学院的各位老师,是他们含辛茹苦传授的知识为我完成论 文奠定了理论基础,在这里我获得知识,结下朋友情谊,度过了愉快而充实的三年。

感谢我的家人,他们这几十载在物质和精神上都给予了我莫大的支持和鼓励!

感谢在213实验室一起成长的杜文浩、王艳、吴磊和张佑贤,研究生期间,我们大部 分时间在实验室度过,感谢大家营造了一个良好的学习氛围,感谢实验室许远静师姐,感 谢他们对我真诚的关心与帮助!

感谢我的舍友王瑞瑞、刘奥琦、谢丽娜、李春雨三年来的照顾和陪伴,感谢研究生三 年在我生命中出现的最重要的一个人张德正,研究生期间对我无私的包容和照顾,在我遇 到困难的时候能够耐心地开导我和我一起解决问题,在我失意和困惑的时候能够给我最大 的鼓励和安慰。

感谢本文所引用的参考文献的作者!

最后,衷心的感谢本文的评阅老师,感谢您能在百忙之中抽空对我的论文进行评审。 同时也感谢论文答辩委员会诸位老师在百忙之中审阅我的论文并出席论文答辩会!