基于卷积神经网络的双耳声源定位研究

 2022-05-10 20:11:49

论文总字数:34749字

摘 要

声源定位是语音信号处理的前端模块,其应用十分广泛。基于双耳的声源定位算法可分为传统算法与基于深度学习的算法两类,它们的基本思想是利用计算机模拟听觉系统的感知特性,通过双耳声源定位线索得到声源的位置信息。提升噪声与混响环境中的定位准确性,是当前双耳声源定位算法的研究重点,本文结合已有的研究,提出了一种鲁棒的双耳声源定位算法:基于深度卷积神经网络DCNN(Deep Convolutional Neural Network)的双耳声源定位算法。

本文构建了12层的DCNN模型,模型输入特征为将语音信号划分子带后,对各子带信号提取的耳间强度差IID(Interaural Intensity Difference)与双耳互相关函数CCF(Cross Correlation Function)融合而成的二维特征。DCNN中主要进行二维卷积运算,因此相比传统神经网络其权重数目减少,效率提高。同时在训练中采用了优化算法进行权重更新,并采用Dropout等方法防止模型过拟合。通过在多种仿真环境与实际环境中的测试,以及与以往算法的对比,证明了本文提出的基于DCNN的双耳声源定位系统的定位性能良好,鲁棒性有明显提高。

关键词:双耳声源定位,深度学习,卷积网络,特征融合

Abstract

Sound source localization is the front-end module of speech signal processing, and it has highly extensive application. The binaural-based sound source localization algorithm can be divided into two types: traditional algorithm and deep learning-based algorithm. Their basic idea is to use computer to simulate the perceptual characteristics of the auditory system, and obtain the position information of the sound source through the binaural sound source positioning clues. Improving the positioning accuracy in noise and reverberation environment is the research focus of the current binaural sound source localization algorithm. Based on the existing research, this paper proposes a robust binaural sound source localization algorithm: The binaural sound source localization algorithm based on deep convolutional neural network (DCNN).

In this paper, a 12-layer DCNN model is constructed. The input feature of the model is a two-dimensional in which IID (Interaural Intensity Difference) and CCF (Cross Correlation Function) are extracted and fused after sub-banding the speech signal. In DCNN, two-dimensional convolution operations are mainly performed. As a result, the number of weights is reduced and the efficiency is improved compared with the conventional neural network. At the same time, the optimization algorithm is used in the training, and the method such as Dropout is used to prevent the model from overfitting. Through the tests in various simulation environments and actual environments as well as the comparison with previous algorithms, it is proved that the proposed DCNN-based binaural sound source localization system has good positioning performance and significantly improved robustness.

KEY WORDS: Binaural Sound Source Localization, Deep Learning, Convolutional Network, Feature Fusing

目 录

摘要 I

Abstract II

第一章 绪论 1

1.1研究背景及意义 1

1.2声源定位的研究现状 2

1.3论文主要研究内容及目标 3

1.4论文组织结构 3

第二章 基于双耳线索的声源定位介绍 5

2.1人类听觉系统 5

2.1.1人耳生理结构 5

2.1.2听觉系统的感知特性 5

2.1.3空间听觉与空间坐标系 5

2.1.4双耳信号传输模型 6

2.2双耳声源定位线索 7

2.2.1耳间时间差 7

2.2.2双耳互相关函数 9

2.2.3耳间强度差 9

2.3神经网络简介 10

2.3.1神经元模型 10

2.3.2传统神经网络 11

2.3.3卷积神经网络 12

2.4基于双耳的声源定位 13

2.4.1传统双耳声源定位算法 13

2.4.2基于深度神经网络的双耳声源定位算法 14

2.4.3基于深度卷积神经网络的双耳声源定位算法 14

2.5本章小结 15

第三章 基于深度卷积神经网络的双耳声源定位算法 16

3.1基于深度卷积神经网络的双耳声源定位系统 16

3.2双耳定位线索提取 16

3.2.1Gammatone滤波器组 16

3.2.2预处理 17

3.2.3特征提取 18

3.2.4特征融合 19

3.3深度卷积神经网络 19

3.3.1深度卷积神经网络结构 19

3.3.2深度卷积神经网络训练算法 20

3.3.3深度卷积神经网络优化算法 21

3.4测试结果与分析 22

3.4.1仿真数据生成方式 23

3.4.2实际数据采集方式 23

3.4.3模型定位性能评估 25

3.4.4深度卷积神经网络模型与以往算法的对比结果 27

3.5本章小结 32

第四章 总结与展望 33

4.1总结 33

4.2展望 33

参考文献(References) 35

致 谢 40

第一章 绪论

1.1研究背景及意义

生活中人们可以依靠听觉获取外界信息。随着智能化时代到来,结合机器学习和云计算等快速兴起的技术手段,智能设备的人机交互成为当前研究的热点,这其中,凭借语音的人机交互理所当然地成为备受关注的重要方向。当前智能语音交互设备已经拥有了较为成熟产品,诸如Siri、Cortana等语音助手,各类智能机器人以及各类语音输入法等。可见,语音信号处理的发展极大的促进了人类社会的便捷化和智能化。声源定位技术作为语音信号处理的前端模块,其定位效果是语音处理系统性能的基础,因此成为语音信号处理中非常重要的环节。随着大数据和人工智能的飞速发展,将深度学习方法用于声源定位成为近年来研究的热门方向。

剩余内容已隐藏,请支付后下载全文,论文总字数:34749字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;