1. 研究目的与意义
随着人工智能技术的迅速发展,人们对人机交互有了更高的期待,我们希望不仅可以从语音信号中获取丰富的文本信息,并且可以得到说话者的情感信息。目前,语音情感识别在计算机辅助教学、抑郁症病人的情绪跟踪以及自动呼叫中心等领域具有比较好的实践应用前景。
目前,在语音情感识别领域应用比较广的支持向量机(Support Vector Machines, SVM)分类器在解决非线性、小样本以及高维模式识别等方面表现出了特有的优势,因此广泛应用于语音情感识别中。在SVM中,为了找到最佳分离超平面,有必要仅考虑训练点的一个子集,称为支持向量。SVM可以有效地确定最佳分离超平面,即使在训练集很小的情况下也能获得较好的分类精度。最后,利用SVM与决策树的混合模型完成分类识别。2. 课题关键问题和重难点
课题关键点
1.构建基于svm与决策树的情感语音识别模型,需要掌握python语言并学习使用scikit-learn。
2.搭建模型过程中,需要把svm和决策树联系起来。
3. 国内外研究现状(文献综述)
随着计算机技术和人工智能技术的快速发展,语音信号中的情感信息不断受到研究者的重视,语音情感识别技术的发展步伐加快。在国际方面,2000年在爱尔兰召开的isca workshop on speech and emotion国际会议上,来自各个国家和地区的学者对语音情感识别进行了首次探讨。近十余年来,越来越多的国家和研究机构开始投身于语音情感识别的研究中。具有代表性的有:美国picard教授负责的媒体研究实验室证明了声学特征参数对语音情感识别的作用;慕尼黑工业大学schuller领导的人机交互实验室对语音情感识别的框架提出了构想;南加州大学的narayanan教授对与情感相关的语音特征参数进行了研究,并探讨了含有语义信息的语音情感识别;日本的nicholson教授将深度神经网络应用到语音情感识别中,并对其进行了探讨。
国内对于语音情感识别技术的研究起步较晚,始于20世纪初,经过十多年的不断发展,研究者和研究机构也开始不断地投入到语音情感识别的研究中。最著名的是东南大学的赵力老师领导的团队对语音情感识别进行了大量研究。
文献[1]提出一种基于决策树和改进svm混合模型的语音情感识别方法,有效地避免了无界泛化误差、分类器数目多、受限优化等问题,提高了悲伤、喜悦、愤怒、厌恶、惊讶、恐惧6种基本情感识别效率。与传统的支持向量机和人工神经网络方法相比,有更高的抗噪声能力和稳定性,能得到更高的识别准确率,而且有较强的实用性和推广能力。
4. 研究方案
1.对采集到的语音数据进行预处理,预处理技术可以在一定程度上提高系统的识别率。常用的语音预处理技术主要包括预加重、加窗、分帧、端点检测等。预加重通过提升高频部分,从而使得信号的整个频谱变得平坦,能通过相同的信噪比来计算频谱,以便用于声道参数分析或者频谱分析。为了能够利用处理平稳信号的方法对语音信号进行处理,我们需要对语音信号进行分帧操作,分帧就是在时域上按照一定的规则对信号进行拆分。一般每秒的帧数约为33~100帧,实际按情况而定。分帧方式包括连续分帧和重叠分帧两种。为了使得帧间的平滑过渡,保持其连续性,一般在实验中采用重叠分帧的方式,前后帧重叠的部分叫做帧移,帧移一般为帧长的0~1/2倍。为了减小分帧过程中频谱泄露造成的影响,在分帧后需对信号进行加窗处理,即通过合适的窗函数来乘以原信号,从而得到加窗后的语音信号,常用的窗函数主要有矩形窗、汉明窗、海宁窗。利用端点检测技术检测出语音信号的有效部分,同时去除静默音和噪声的影响,以提高识别率。通常使用过零率法、短时能量法和过零率双阈值法。
2.语音情感特征的提取。考虑利用的特征有能量、过零率、基音频率、梅尔倒谱系数(mel-frequencycepstral coefficient, mfcc)和傅里叶系数字。采用通过计算短时平均幅度能量的方式来求得语音信号的能量。提取一帧语音中语音信号波形穿过横轴(零电平)的次数,得到短时过零率。采用自相关函数法来计算得到相关语音的基音频率,对于浊音语音,它的自相关函数在基音周期的整数倍位置处出现峰值;而清音的自相关函数没有明显的峰值,从而根据峰值的位置就可以求出基音周期的值,基音周期的倒数即为基音频率。将普通频率在频域上转换成mel频率,然后再变换到倒谱域,通过计算得到倒谱系数。把经过预加重、分帧、加窗等预处理的语音信号进行傅里叶变换得到谐波系数,并计算每个谐波系数的模值得到傅里叶系数。
3.构建svm与决策树模型。用一级svm进行粗分类,然后针对容易混淆的情感通过利用不同的特征参数来训练不同的svm进行细分类,从而实现对所有情感的分类。利用mfcc参数及傅里叶系数和传统svm的方法计算出情感识别混淆矩阵,并根据混淆矩阵计算出各类情感之间的混淆度。将混淆度超过阈值的情感分为一类,若情感不重复,则将其分为一组;若与其他组内情感重复,则将重复组并为一组。如果某种情感与其他情感的混淆度都小于阈值,则将其单独归为一类。然后计算各组中情感类别的个数,如果个数大于2,则增加阈值,再次计算出情感识别混淆矩阵并重复上述分类,否则完成分组,至此决策树svm构建完成。整体方案图如图1所示。
5. 工作计划
2022-2023-2学期第1-4周,根据需求分析并设计svm与决策树的模型;
第5-6周,完成svm分类,用一级svm进行粗分类,然后针对容易混淆的情感通过利用不同的特征参数来训练不同的svm进行细分类;
第7-8周,利用mfcc参数及傅里叶系数和传统svm的方法计算出情感识别混淆矩阵,并根据混淆矩阵计算出各类情感之间的混淆度,根据混淆度和设置的阈值将情感分组;完成毕业设计论文提纲;
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。