语音情感识别的PCA特征选择方法的研究

 2022-11-26 12:54:22

论文总字数:14890字

摘 要

在语音情感识别中,选择重要的语音情感特征是识别步骤中最为关键的一步。到目前为止,我们接触到的一些特征提取的算法能够帮助我们提高识别特征的效率,但在特征值上的分解,计算量上存在一些局限性。在本实验中,提取的特征有均方根信号帧能量,12维梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient, MFCC),过零率,发生概率,基频及对应的一阶系数共计32类特征。本次的实验中,使用到了opensmile中IS09库,将这些特征作为输入,选择10个不同的方差贡献度,用主成分分析法(Principal Component Analysis, PCA)方法对提取的特征进行降维,再通过支持向量机(Support Vector Machines, SVM)得到识别率,并绘制识别率曲线。

关键词:PCA特征选择方法;情感识别;柏林语音情感库

Research on PCA Teature Selection Method for Speech Emotion Recognition

Abstract

In speech emotion recognition, selecting important speech emotion features is the most critical step. So far, some of the feature extraction algorithms which we have come into contact with can help us improve the efficiency of feature recognition, but there are some limitations in the decomposition of eigenvalues and the amount of computation. In this experiment, the extracted features include root mean square (RMS) signal frame energy, 12 dimensional MFCC features, zero crossing rate, occurrence probability, fundamental frequency and corresponding first-order coefficients. In this experiment, the IS09 Library in opensmile is used. These features are used as input, and 10 different variance contribution degrees are selected. PCA method is used to reduce the dimension of the extracted features, and then SVM (Support Vector Machine) is used to get the recognition rate, and the recognition rate curve is drawn.

Keywords: PCA feature selection method;Emotion recognition;Berlin voice emotion databas

目 录

摘 要 I

Abstract II

第一章 引 言 1

1.1 研究背景和意义 1

1.2 国内外研究发展情况 2

1.3 研究流程概述及论文结构 2

1.4 本章小结 3

第二章 语音的预处理 4

2.1 数字化 4

2.2 预加重 4

2.3 信号的分帧与加窗 4

2.4 本章小结 5

第三章 语音情感特征的提取 6

3.1情感特征的提取 6

3.2 统计量 8

3.3 本章小结 8

第四章 基于PCA的特征选择方法 10

4.1 PCA特征选择方法的介绍 10

4.1.1 PCA的原理介绍 10

4.1.2 PCA特征选择方法 10

4.2 提取特征子集 11

4.3 本章小结 12

第五章 实验结果及分析 13

5.1 实验的环境设置 13

5.1.1 实验的软硬件环境 13

5.1.2 柏林语音情感库 13

5.1.3 支持向量机 13

5.2 测试结果与分析 14

5.3 本章小结 15

第六章 实验总结和展望 16

6.1 实验总结 16

6.2 未来展望 16

致 谢 17

参考文献(References) 18

第一章 引 言

语音是最自然的交流方式,语言信号中的情感信号是重要的信息表达方式之一,是人类感知信息的必要组成部分[1]。人机互动当前越来越受到人们的重视,正是因为它所呈现出的重要的实际价值和意义。在实际生活中,语音交流是我们日常人与人之间交流的重要的组成部分,因此对于语音中的一些情感特征的研究是十分重要的,尤其是在语音情感识别和语音情感合成的部分[2]

1.1 研究背景和意义

随着人工智能和计算机科学技术的发展,人们的需求日益增强,已经不仅仅局限于一些多媒体的播映,而是希望它们也是智能的,能够感应自己情感变化的能力。因此,对于在语音中一些特征的提取也变得日益重要。

我们在交流中能够透露自己的情感,这是因为一些能够反映情绪波动的特征被旁听者所捕捉到。经过研究发现,说话人的情绪波动所引起的语音变化在不同的人当中基本是相同的,只有一些细小的差异[3]。所以,可以通过语音的特征参数来反映情感的变化,进而导致了研究人员希望在语音中识别出一些重要的情感特征。一般情况下,当人的情绪发生波动时就会直接对语音产生影响,就比如(声音强度,基音,语速等)都是重要的指标。就像当一个人害怕和生气时会不由自主的产生颤抖这就会带来基频摆动;情绪低落就会使得音频信号由于人的声道紧张而发生变化。除此之外,如果采用不同的语音识别算法也会对语音情感的识别产生影响。当前,越来越多的国家开始重视对于语音情感中信息的处理,就像美国,日本,欧洲,中国等众多国家的科研院所对于语音情感处理工作投入了大量的人力物力。

在实际生活中,情感的表现是通过人的脸部表情,语音的声调和身体的姿势来展现的。在日常的交流中,人们可以通过这些特征来察觉情感的变化。情感的展现主要有三种形式:脸部表情,语音的声调和身体的姿势。脸部是最形象的情感器官,人的面部表情不仅丰富而且十分复杂,它的发展得益于人类生产力水平的提高和人际关系的复杂程度。在通常情况下,人们可以通过说话者的眼睛,眉毛,嘴型以及脸上肌肉的起伏情况,判断一个人的情感变化。一个人的情感变化是可以通过言语来展现的,但是如果说话人再搭配自己特殊的说话方式(如声音的高低、语速、声调、旋律等),就可以体现一个人情感波动,体现人的文学素养、精神面貌和性格特点。情绪波动和性格特点通常可以通过自己的身体姿势呈现出来。如果一个人在极度高兴,伤心,愤怒,害怕,抑郁等情绪状态时,他所展现出来的身体姿势表情是与众不同的,这时我们也可以参考电视剧中的演员,他们通过改变自身的身体姿势来达到所扮演角色感情的变化。图(1.1)是情感的表现形式。

剩余内容已隐藏,请支付后下载全文,论文总字数:14890字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;