基于深度学习的语音分离研究

 2022-05-10 20:11:44

论文总字数:27420字

摘 要

在实际环境中,目标语音信号受到噪声、混响和其他人声的干扰,与这些背景噪声在时频域上混叠,因此对后续的语音信号处理模块产生不利影响。本文基于麦克风阵列信号,提取语音信号空间特征,研究阵列语音分离算法,并使用模拟生成的数据与实验室实测的数据验证其性能。

本文采用基于相位变换加权的可控响应功率(steered-response power with PHAT, SRP-PHAT)作为阵列语音信号的空间特征。将空间划分为360个角度,计算每个角度、每个时频单元的SRP-PHAT,将这个特征输入神经网络。输出的分类标签对应空间划分为36个角度,输出将时频单元分类为36个空间角度之一。依照网络输出可以计算出每个时频单元是否属于目标语音,即计算出每个时频单元的理想二值掩蔽(Ideal Binary Mask,IBM)。使用IBM就可以合成目标语音。

为了研究系统在不同环境下的表现,本文使用了模拟生成的数据与实测数据,其中模拟生成的数据涵盖多种混响条件与噪声条件,而实测数据包含实验室中使用精密设备测得的超过10万帧语音信号,这两者可以体现本文的语音分离系统的良好效果。

关键词:神经网络,语音分离,阵列语音信号处理,语音信号空间特征

ABSTRACT

Target speech is always disturbed by noise, reverberation and speech from others in actual environment. Aliasing with above disturbance in both time and frequency domain, the mixed signal brings speech signal processing system an unsatisfactory performance. In this thesis, a speech separation algorithm is proposed to analyse the spatial feature extracted from microphone array speech. Speech data generated from both simulated environment and lab environment is employed to verify performance of this algorithm.

In this thesis, SRP-PHAT (steered-response power with PHAT) is used as the spatial feature. The experimental environment is separated into 360 azimuths and SRP-PHAT is calculated for every azimuth and every time-frequency unit. This data is then input into the neural network, with output classifying relevant time-frequency units into 36 azimuths. Afterwards, it can be determined whether one time-frequency unit comes from the target speech according to the output. This step is also known as calculating IBM (Ideal Binary Mask) of every time-frequency unit. IBM can be used to generate target speech.

In order to estimate the performance of this algorithm in variable environment, data from both simulated environment and lab environment is employed. Data from simulated environment involves multiple combination of different noise and reverberation, and data from lab environment includes over 100k frames of speech signals measured with accurate instruments. Analysis of them shows great performance of this algorithm.

Keywords:neural network, speech separation, signal process of microphone array speech,

spatial feature of speech

目 录

第一章 绪论 1

1.1语音分离技术的研究背景及意义 1

1.2 语音分离技术的研究现状 1

1.3 本文的主要研究内容 3

1.4 论文组织结构 3

第二章 基于阵列语音空间特征的语音分离方法 5

2.1 本文的语音分离流程 5

2.2 数据预处理 5

2.2.1 归一化 5

2.2.2 子带处理 5

2.2.3 分帧加窗 6

2.3 混合语音的空间特征 7

2.3.1 GCC-PHAT方法 7

2.3.2 SRP-PHAT方法 8

2.4 神经网络细节 9

2.4.1 神经网络输入输出 9

2.4.2 神经网络的结构 10

2.4.3 神经网络的训练方法 10

2.4.4 超参数的确定 11

2.5 合成语音的性能评价 12

2.5.1 分类正确率 12

2.5.2 信噪比 12

2.5.3 STOI 13

2.5.4 PESQ 13

2.6 本章小结 13

第三章 使用模拟数据的语音分离系统的训练与测试 14

3.1 模拟数据的生成 14

3.1.1 阵列结构与声源位置 14

3.1.2 生成方法 14

3.1.3 训练标签生成 15

3.1.4 特征提取 15

3.2 语音合成 15

3.2.1 掩蔽合成 15

3.2.2 语音合成 16

3.3 合成语音的性能评价 16

3.3.1 分类正确率 16

3.3.2 信噪比 17

3.3.3 STOI 18

3.4 本章小结 19

第四章 使用实测数据的语音分离系统测试 20

4.1 实验环境 20

4.1.1 实验硬件器材 20

4.1.2 实验软件资源 21

4.1.3 实验资源的使用 21

4.2 实验数据 22

4.2.1 混合语音生成 22

4.2.2 合成语音的性能评价 22

4.3 本章小结 23

第五章 总结与展望 24

5.1 总结 24

5.2 展望 24

参考文献 26

致 谢 28

绪论

1.1语音分离技术的研究背景及意义

多个并行音源以及语音信号在物理平面上的反射使得日常的声学环境都很复杂。在这样的环境中分离出目标语音的问题叫做语音分离问题,也常被表述为“鸡尾酒会问题”[1]。此问题如何解决在许多实际应用,如助听器设计、稳健的自动语音识别(ASR)和移动通信中都十分重要。然而,尽管对该问题的研究已持续了几十年,语音分离仍然是一个技术性难题。

在实际环境中,目标语音信号受到多种干扰,与这些背景噪声在时频域上混叠,因此劣化了语音信号处理系统的性能表现。根据干扰信号的来源,从混合语音中分离出目标的任务可以分为“语音增强”、 “多说话人分离”和“解混响”。第一个的目标是消除混合语音中与目标语音相关性不大的噪声;第二个的目标是消除混合语音中目标语音以外的语音,由于人的语音信号都具有一些特征,所以语音信号之间,即使说话人不同,它们的相关性也相对更大;第三个目标是消除混合语音中目标语音在空间中的反射形成的语音[26]

剩余内容已隐藏,请支付后下载全文,论文总字数:27420字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;