合肥工业大学研究生联合培养实践报告要点

编辑:阿文时间:2020-06-23 09:52:03
合肥工业大学研究生联合培养实践报告要点,随着科学技术和信息技术的飞速发展,语音合成技术作为人机交互的核心技术之一,语音中不仅包含了许多文字符号信息,使人们通过听就可以明白信息的内容。

随着科学技术和信息技术的飞速发展,计算机在人类生活中发挥着越来越重要的作用。人机交互能力也越来越受到研究者的青睐,语音合成技术作为人机交互的核心技术之一,在自然语言处理、数字信号处理、随机过程处理等方法的推动下,突破了传统的单纯语音计算算法的研究。近些年来,语音合成技术发展迅速,与其相关的语音学、语言学、自然语音处理、心理学也有了相应快速的发展,再加上人工智能、数字信号处理、嵌入式开发以及情感计算等也取得了迅猛发展,都为人机语音交互的研究提供了更好的理论基础以及发展方向。

一。语音合成的国内外研究意义

语音是人们获取信息的一种最直接、最便捷的交流方式,语音中不仅包含了许多文字符号信息,还包含了不同说话人在不同情况下传达的多种情感的变化。语音合成是对输入的文字信息按照语言学规律进行分析,分段标记后,按照声学处理规则将文字转换成语音信号输出,即让机器读出文字信息,使人们通过“听”就可以明白信息的内容。

2。国内外语音合成技术的研究背景

语音合成的研究历史可以追溯到18世纪末,法国人w. von kempelen在1791年展示了一个机械式会说话的装置,机器内部采用了与声道结构类似的共振器,通过簧片改变音色,该装置可以产生元音、整个词语和语句。

自20世纪出现电子合成器以来,语音合成的研究取得了迅速的发展。1930年,贝尔实验室开发了一种语音编码器,它是一种由键盘操作的电子语音分析仪和合成器。1939年,贝尔实验室h.dudley在其基础上进行改进,制作了电子式语音合成器voder,利用共振峰原理制作得到的一个语音合成器,通过电子线路来实现基于语音产生的源/滤波器理论。

1960年,瑞典语言学家g.fant系统阐述了语音产生的理论,推动了语音合成的进步1982年,mit教授d.klatt设计的串/并联混合型共振峰合成器,可模拟发声过程中的声道共振,元音和浊辅音的产生用串联通道来实现,清浊音的产生用并联通道来实现,还可以选择和调整声源,模拟不同的嗓音,它可以发出供用户选择的七中不同音色的语音,在发音速度上增加到每分钟350词时也可以达到清晰、自然的效果。在这些创新研究的带动下,其他语种的语音合成系统也相继实现,如日本的matsu****a电子公司利用dectalk系统开发了将日语和汉语转换成口语的系统,德国fraunhofer学会功效研究所成功开发了dectalk的德语版本。

20世纪80年代末,语音合成技术有了新的突破,基于时域波形修改的语音合成算法psola(pitch synchronous overlap add)的提出[3],较好地解决了语音拼接的问题,大大提高了合成语音的自然度。20世纪90年代中期,随着语音识别技术中统计模型的出现,研究者提出了可训练的语音合成技术,该方法是基于统计建模和机器学习的,根据一定的语音数据进行训练并快速构建语音合成系统。其中,基于hmm的建模与参数生成综合方法是最具代表性的。

对于国内的中文语音合成的研究起步较晚, 从20世纪80年代开始,中科院声学所、中科院自动化所、中国科技大学以及社科院语言所都相继开展了这方面的研究,大致也经历了共振峰合成、线性**合成和基于psola技术的过程。如1993年中国科学院声学所的kx-psola、1994年中科院声学所开发的“联想佳音”语音合成系统,引入了基音同步叠加技术(psola),在当年国家863评比中获得第一名。1998年,中国科技大学kd-863汉语文语转换系统采用了对数幅度逼近算法(lma)语音合成器,该方法有效提高了合成语音的音质和自然度。

随着统计模型方法的提出,很多单位和研究机构也开展了基于hmm参数的语音合成方法的研究,如中科大、清华大学、ibm中国研究中心以及微软亚洲研究院等。其中,最具代表性的是中科大及科大讯飞公司,2000年以来,中科大讯飞通过采用lma声道模型的技术,能够合成出高自然度的语音[5][6]。

3.语音合成技术

3.1波形拼接合成方法

波形拼接合成是一种比较简单的语音合成技术。波形拼接合成方法的基本原理就是根据输入文本分析得到的信息,从预先录制和标注好的语音库中挑选合适的单元,进行少量的调整(也可以不进行调整),然后拼接得到最终的合成语音,其中用来进行单元挑选的信息可以是前端分析得到的韵律文本,也可以是生成的声学参数(比如基频、时长和谱参数),或者两者兼有。简单点说,就是根据待合成的信息,在语音库中取出相应单元的波形数据,拼接或者编辑到一起,经过解码恢复语音。

在此过程中,语音合成器的主要功能是实现语音的存储和回放。

一方面,基于波形拼接的语音合成的效果好坏直接取决于语料库的规模大小以及所选取的合成单元,它需要足够大的存储空间来存放这些大规模的语料库,需要较高的计算和存储能力,相应的时间和空间的投入较多;它还占用大量的存储空间,不适合于嵌入式系统和移动设备;并且,如果待合成语句中含有超出训练语料库覆盖范围的音段,当训练库覆盖不够并且合成过程中挑选不到合适的单元时,或者某些拼接单元的连接处出现不连续的现象时,语音合成效果明显下降;另一方面,波形拼接合成单元一旦确定就无法做任何调整和改变,也无法根据上下文来调节其韵律特征,这样就使得发音风格比较单一,当需要改变合成语音的速度、发声风格、性别等特征时,需要大规模重新调试优化整个训练流程,可扩展性不够。

psola是基于波形拼接的语音合成中使用最广泛的方法。psola算法在语音波形片段拼接之前,先根据语义对拼接单元的韵律特征进行调整,这样既可以保留原始语音基元的主要音段特征,又可以使拼接单元的韵律特征符合语义,从而使合成语音获得较高的自然度和可懂度。在调整剪接单元的韵律特征时,根据基因周期调整波形,保证语音波形和频谱的平滑连续。

目前,该方法已经实现了至少七八种语言的语音合成系统。如日本的ntt公司基于波形文件实现了日语规则合成系统,法国**et以双音素作为语音单元,用基于hmm的语音匹配法进行特性标注,实现了法语的文语转换系统。在中国,声学研究所、中科院、清华大学和中国科技大学也采用psola技术的波形拼接来实现语音合成系统。

3.2参数合成方法

参数合成是一种复杂的语音合成技术。基于参数的语音合成系统是通过数字信号来模拟发声,首先将我们发出的声音转化为数字信号,这些信号可能是周期脉冲信号或者是随机的噪音序列,在合成过程中,将这些信号输入到一个特定的滤波器(如带通滤波器)中,最后通过输出设备输出合成语音。在这种模式下,通过调整滤波器的参数可以控制滤波器来发出不同的声音,也可以通过调整数字信号的周期或者强度来改变语音的韵律等。

因此,只要能正确地调整数字信号或滤波器的参数,就可以合成不同的语音。

3.3规则合成方法

规则合成方法是一种高级的语音合成方法,在合成前,可以不确定合成的词表,基于规则的语音合成系统中存储的是最小语音单位的声学参数。可以按照多种规则,例如由音素组成音节、由音节组成词、再通过词组成词组、由词组组成语句,以及控制音高、音强等韵律特征,最后得到待合成的字、词或者句子。该方法的研究核心是挖掘出说话人在说话过程中,是按照哪种规则来生成语音单元的,将这些相关的规则给予机器,在机器中合成语音。

汉语是一种特殊的语种,因此在处理语音单元的规则时,有许多需要注意的问题,单独存在的元音和辅音与发声中连续的元音和辅音不同,不同语境下的同一词语表达的意思不同,根据上下文相同读音的多音字的描述不同,声调在何种情况下需要调整,声韵母是如何产生相互影响。

汉语属于声调语音学范畴,声学单元是拼接的基本单元。它可以是音位、双因素、三因素、音节、单词、句子等。汉语的韵律结构比较复杂。句子的语音水平是从音位到音节,从音节到单词,最后从单词到句子。选择的原语越小,语料库占用的存储空间越小,拼接越灵活,变化越复杂。

四。语音合成的基本原理

语音合成是对输入的文字信息按照语言学规律进行分析,分段标记后,按照声学处理规则将文字转换成语音信号输出,即让机器读出文字信息,使人们通过“听”就可以明白信息的内容。其系统框图为:

图1语音合成系统框图

4.1文本分析与处理

文本分析与处理是使计算机能够识别文字,并根据上下关系在一定程度上对文本进行理解,从而知道要发什么音、怎么发音,并将发音的方式告诉计算机,另外还要让计算机知道文本中哪些是词,哪些是短语、句子,发音时应该停顿的位置和时长等。

文本分析处理的工作过程包括:

图2文本分析和处理过程

(1) 将输入的文本规范化,在这个过程中处理用户可能的拼写错误,并将文本中出现的一些不规范或无法发音的字符过滤掉;

(2) 分析文本中的词或短语的边界,确定文字的读音,同时在这个过程中分析文本中出现的数字、姓氏、特殊字符以及多种多音字的读音方式;

(3) 根据文本的结构、组成和不同位置出现的标点符号,来确定发音时语气的变换以及不同语音的轻重方式。最终,文本分析模块将输入的文本转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。

4.2 韵律规则库

任何人说话都有韵律特征,有不同的声调、语气、停顿方式,发音长短也各不相同,这些都属于韵律特征。

韵律研究是一项复杂的系统工程,涉及语言学、语音学、心理学、语用学等多学科的综合知识。一个语音单元除了由元音和辅音按时间顺序排列的音段成分之外,还必须包括一定的超音段成分,否则这个音节就不可能成为有区别意义的有声语言。目前对韵律研究的重点是音高、音长、音强三个超音段参数在连续语流中的分布规律及其相互的作用,而研究的基本方法仍是基于对生理特征的分析及大语料库的统计分析,韵律特征的特点如表1.

表1 韵律特征的特点

目前,韵律是综合系统的薄弱环节,所使用的韵律模型都是韵律普遍规律的单一应用。把韵律的共性与个性有机的结合起来,是提高语音合成系统自然度的关键。

4.3语音合成器的设计

线性**合成方法是目前比较简单和实用的一种语音合成方法,它以其低数据率、低复杂度、低成本,受到特别的重视。