基于神经网络的语音频带扩展

发布时间:2022-06-14 21:43:06 论文编辑:vicky

本文是一篇计算机论文,本文基于神经网络的方法中,研究者们最初采用语音信号频域中的幅度数据作为神经网络的输入数据,但当语音数据由频域向时域变换时不仅要用到幅度数据还要用到相位数据,而神经网络无法预估相位数据。为了解决这个问题,研究者们采用语音信号的波形作为神经网络的输入数据,这样就避免了估计相位操作。

第一章 绪论

1.1 选题依据与研究意义

声音是人类个体与世界沟通的重要工具,通过语音信息的传递,人类得以团结协作,人类社会得以快速发展。随着科技的进步,人类之间的交流由面对面更多的变为以电话、传输网络等通讯设备作为沟通介质的语音交流。这些通讯介质在发送端将采集到的声音信号转换为电信号,利用通讯网络将信息发送到接收端,并在接收端将所接收到的信号转换成人类能够分辨的语音信号以此供人们获取彼此间交流的内容,由此可见通讯介质极大的影响到了语音交流的质量。例如,相比于低端收音设备,高端收音设备可以以更高的比特率对语音信号进行采样,呈现出更高的语音品质;相比于低带宽的传输网络,高带宽传输网络允许更多的语音数据通过,输送更多的语音信息。

人类语音的频率大致分布在 50Hz-8kHz 这个范围内,按照定义将语音信号中频率低于4kHz 的部分称为低频部分,将频率高于 4kHz 的部分成为高频部分,只具有低频部分的语音被称为窄带语音,同时具有高频部分和低频部分的语音被称为宽带语音。如上所说,沟通介质影响到了沟通的质量,而昂贵的采集设备和高带宽通讯网络又带来了高昂的成本,为了节省成本通常语音信号会以压缩频率的方式进行采集、存储和传输,具体可以表现为发送端说话人以宽带语音的形式发声,采样设备将收集到的宽带语音压缩为窄带语音并发送到接收端。比较宽带语音信号和窄带语音可以发现宽带语音比窄带语音多了 4kHz-8kHz 这一频率范围内的信息,虽然窄带语音可以保证通话可懂这一基本要求,但高频部分信息的缺失也会造成了语音质量的降低,导致窄带语音信号无法应用在需要高质量语音通话的场景中。所以对窄带语音信号进行频带扩展、恢复它在 4kHz-8kHz 这一高频范围内所缺失的信息也就成为语音信号处理中所需要研究的一个问题。

1.2 国内外研究现状

语音频带扩展又被称为语音超分辨率,它的目的是恢复窄带信号中缺失的高频信息,将语音信号由窄带信号变为宽带信号,具体可以表现为提高语音信号的最高频率范围,提升语音信号的采样率,补全高频域中的信息。针对语音频带扩展的研究已经持续了很长时间,许多工作者为解决这个问题提出了各种各样的方法。

在人工频带扩展方法中有基于统计的高斯混合模型[5][6](Guassian Mixture Model,GMM)和隐马尔可夫模型[7-10]  (Hidden Markov Model,HMM),这两种方法是重要的人工频带扩展手段,它们的思想是通过建立统计学模型以概率的方式预测高频信息从而实现频带扩展。在这两种方法外还有基于数据隐藏[11-15](data hide)的方式,它在发送端将高频数据隐藏在低频中以降低传输时占用的带宽,然后在接收端从接收到的信息中提取高频信息并将数据恢复成宽带信号。此外还有基于码本映射[16-18](codebook mapping)的方式,它在低频特征和高频特征之间建立映射关系并依靠这种关系获取高频数据从而实现频带扩展。

人工频带扩展方法为频带扩展的发展打下了坚实的基础,随着深度学习的出现,神经网络极大的提升了学习数据间关系的效率,利用神经网络的非线性拟合能力可以更好的得到所需结果,所以频带扩展任务逐渐由人工频带扩展转为利用深度学习实现。深度学习采用有监督的训练方式,不断的优化模型中的参数数据,最终使得网络的输出越来越接近标签数据,效果越来越好。

第二章 语音频带扩展概述

2.1 宽带信号与窄带信号

语音是经过肺部、声带、口腔、鼻腔、舌头等多个器官共同作用产生的结果,不同性别、不同年龄段的人所发出的声音是不一样的,例如女性和儿童所发出的声音频率较高给人以尖锐的感觉,而男性所发出的声音频率相对较低呈现出一种低沉的状态。这些因素的存在使得语音呈现出千变万化的状态。现实生活中存在很多的场合需要对语音进行数字化采集,例如语音通话、录音等,为了能够充分的记录这些千变万化的语音,语音信号的数字化通常是将多种不同频率的正弦波进行叠加来达到模拟人声的目的。

数字化过程中所用到的采样设备受到自身性能的限制,通常会以较低的采样率运行。采样率表示的是在单位时间内所采集到的样本数量,它与采样周期呈倒数关系。也就是说当设备采样率越大,每秒钟采集到的样本点数量也就越多,从而可以得到更多的语音信息。根据奈奎斯特采样定理可以知道,语音信号的频率上限是采样率的二分之一,采样设备自身对采样率的限制最终会影响到采集信号的最大频率。上述提到语音信号是由多种不同频率的正弦波叠加而成,采样设备对最高频率的限制会导致一些频率无法被记录,进而影响到对人声的模拟,例如同一句话经过不同的采样设备采集存储后其形式可能为宽带语音或是窄带语音。

计算机论文怎么写

2.2 插值扩展

根据上节中对宽带语音信号和窄带语音信号的描述以及采样率的定义,对同一说话人的同一条语音分别以 8kHz 和 16kHz 的采样率进行数字化采集和存储时,在时间长度相同的情况下窄带信号的采样点总数是宽带信号的一半。

采样点数量缺失这个问题可以通过对窄带信号执行上采样操作的方式来解决。上采样的主要操作为在窄带信号中插入等同于其自身采样点数量的数据,从而实现信号中采样点数量倍增的目的,使得上采样后的窄带信号和宽带信号拥有相同数量的采样点。三次样条插值法[35](cubic spline interpolation,CUBIC)是一种常用的上采样方法,采用三次样条插值法的原因是因为语音信号在时域上是一条上下波动的光滑曲线,三次样条插值法经过计算后在两个采样点之间插入一个合适的值可以最大程度的保证插值后语音序列在时域上的光滑性。

频带扩展任务在深度学习中是一个有监督的学习任务,将经过三次样条插值后的窄带语音数据作为网络模型的输入数据,将对应的宽带信号数据作为模型的标签数据。如图 2.3 所示,整个频带扩展任务可以分成两个过程,分别是训练过程和测试过程。在训练过程中通过模型将输入的窄带语音信号映射为预估宽带信号,然后利用这个预估的宽带数据和标签数据计算损失,并利用得到的损失通过反向传播的方式对模型的参数进行优化,使得经过模型计算得到的预估宽带信号越来越接近标签宽带信号。在测试过程中,需要将窄带信号输入到模型中生成对应的预估宽带信号。

第三章  纯净语音的频带扩展 ........................................ 13

3.1  卷积与反卷积神经网络 ............................................... 13

3.2  循环神经网络 ............................................ 16

第四章  带噪语音的频带扩展 ...................................... 32

4.1  多任务学习频带扩展 .................................................. 33

4.2  单任务学习频带扩展 ................................................ 34

第五章  总结与展望 ................................... 42

5.1  总结 .......................................... 42

5.2  展望 ......................................... 42

第四章 带噪语音的频带扩展

4.1 多任务学习频带扩展

多任务学习[61]模型是指存在多个由源数据 X 到目标数据 Y 的映射,使得模型能对多个不同的任务进行建模。例如在语音唤醒中模型需要分别实现两个任务,第一个任务是检测是否是用户的声音,避免环境中的其他声音对任务的干扰。第二个任务是检测用户的语句是否与唤醒词匹配,避免非任务状态下的唤醒。通过一个模型结构实现上述两个任务的建模就是多任务模型最典型的特征。

多任务模型大致存在三种形式。第一种是给定一个源数据集,其对应多个目标数据集。第二种是给定多个源数据集,需要将其映射为一个目标数据集。第三种是给定多个源数据集,其对应多个目标数据集。在带噪语音的频带扩展任务中需要分别实现语音信号的降噪及扩展两个任务,模型的输入数据仅有带噪窄带信号,所以该任务对应了三种状态中的第一种。

计算机论文参考

图 4.2 是带噪语音信号的多任务学习频带扩展流程,模型中存在两个相互独立的网络结构,分别是增强模块和扩展模块,这两个模块被整合到一个模型中用来实现语音增强和频带扩展两个任务。构成两个模块的网络结构可以相同也可以不同,本文中的增强模块和扩展模块采用相同的网络结构。

第五章 总结与展望

5.1 总结

语音信号频带扩展是语音信号处理中常见的任务,通过提升语音信号的采样率,恢复语音信号缺失的高频信息,可以有效的提升语音信号的质量,同时为语音信号在其他场景中的应用做铺垫。频带扩展任务最初通过人工频带扩展的方式实现,但在神经网络出现后,利用神经网络的有监督学习方式可以更有效的提升频带扩展的结果,获得更好的预估宽带信号,越来越多的研究者采用神经网络的方法研究频带扩展。

基于神经网络的方法中,研究者们最初采用语音信号频域中的幅度数据作为神经网络的输入数据,但当语音数据由频域向时域变换时不仅要用到幅度数据还要用到相位数据,而神经网络无法预估相位数据。为了解决这个问题,研究者们采用语音信号的波形作为神经网络的输入数据,这样就避免了估计相位操作。

在前人研究工作的基础上,本文围绕纯净语音频带扩展和带噪语音频带扩展两个方面展开研究。以纯净语音作为神经网络的输入数据是当前频带扩展研究的重点,本文基于宽带信号、窄带信号和上采样插值信号的序列变换提出了采样点置换的方法,采样点置换可以有效的将窄带信号中的信息保留在预估宽带信号中且不影响高频信息的重建。尽管众多研究者们在纯净语音频带扩展的研究上取得了不错的效果,但日常生活中的语音信号多是以带噪的形式出现,而针对带噪语音信号的频带扩展研究较少。为了频带扩展能在日常生活中得到更广泛的应用,本文通过实验验证了带噪信号频带扩展的可行性,实现了带噪窄带语音信号的语音增强和频带扩展。鉴于单一结构的神经网络可能无法同时处理关联数据和长序列,本文采用了 CRN 和 DPRNN 这样的复合网络结构,二者均是由 CNN 和 LSTM 构成。从理论上看复合网络解决了长序列关联数据的建模问题,从实验结果上看复合网络取得了较好的结果。

参考文献(略)

提交代写需求

如果您有论文代写需求,可以通过下面的方式联系我们。