集成神经网络语音情感识别模型研究

来源:网络  作者:网络转载   2019-09-25 阅读:152

背景

    情感识别有助于为人机交互提供良好的体验,是未来计算机必备的一项重要能力,因而近年来语音情感识别已经逐渐成为一个研究热点,并有了大量应用。虽然早在20世纪80年代就出现了语音情感识别的相关研究,该课题对于机器而言确实较为棘手。此外,相比语音识别领域,用于语音情感识别的公开数据库少之又少。

语音情感识别系统由两部分构成,即特征提取器和情感识别分类器。

    语音情感识别任务中使用的声学特征可分为3类:韵律学特征、谱特征和音质特征。其中常用的韵律学特征包括时长、基频、能量等;谱特征一般有LPC、OSALPC等线性谱特征和MFCC、LPCC等倒谱特征;音质特征一般有共振峰频率及其带宽、频率微扰、振幅微扰和声门参数等。以上声学特征由于是从语音帧中提取,表征的是短时音频的特性,也统称为低层描述子。然而人们对情感的感知往往蕴藏于某一时间段内情感的波动表达,所以为了在更长的时间范围内对情感进行描述,通常还计算句子的全局特征。全局特征用于刻画低层描述子在整句话中的动态变化信息,因此由低层描述子的统计值组成,常见的统计值有均值、极值、变化范围、丰度、偏度、矩和线性回归相关参数等。特征设计在传统的语音情感识别方法中是重要的一环,决定了情感特征的好坏。然而,寻找最优的特征子集是一项繁琐的任务,也依据不同的数据库而有所不同。到目前为止,对于语音情感识别任务还没有一套公认的最优特征集,研究人员大多在实验中经验性地选择所需特征。

    根据特征来源和分类器训练方法的不同,语音情感识别系统可以在两个层次进行情感的判断:短语音段层次和完整句子层次。对于短语音段的语音情感识别,一个句子被切分为多个语音段,使用语音段的特征训练分类器。低层描述子在从语音帧提取出来后,被输入到序列分类器以模拟说话人的情感分布状态,这样的序列分类器通常使用高斯混合模型和隐马尔可夫模型进行建模。在训练时短语音段的情感标签就是所属句子的情感标签;测试时,由于一句话有多个语音段的识别结果,对它们进行大多数投票得到最终的识别结果。对于完整句子层次的语音情感识别,分类器输入的是从整个句子提取的特征。首先由低层描述子和统计函数计算句子的全局特征,最后全局特征输入到一个判别分类器进行句子情感的识别。这样的判别分类器包括几乎所有的传统分类器,如支持向量机、决策树、K邻近模型等。

近年来,深度神经网络因其具有强大的从原始数据学习层级特征的能力,也被引入了语音情感识别领域。Han等人设计了DNN用于学习短时语音段情感特征,后端使用极限学习机对全局特征进行句子层次的情感分类。Lee等人提出了基于最大似然学习准则的循环神经网络对随机语音段标签序列进行建模,极大提升了语音情感识别的准确率。Mirsamadi等人针对语音情感识别探索了不同的RNN结构,并提出了注意力机制对不同情感重要程度的语音帧进行加权。Mao等人设计了卷积神经网络来学习语音中显著具有判别性的情感特征。

    在同一个数据库上比较以上不同的方法,可以发现它们的混淆矩阵有很大差异。尽管使用相同的低层描述子,不同分类器在每个情感类别上都获得了不一致的识别率。该现象说明单一的分类器无法在所有情感类别上都表现良好,例如可能SVM无法有效识别出“高兴”而DNN分类器却可以。这样的差异除了与数据不均衡有关,还与分类器自身的建模能力直接相关。

    从该结论出发,为了提高语音情感识别的准确率,本文提出一种使用两类神经网络作为基分类器的集成学习方法。正如文献所说,集成系统中的基分类器应该尽可能地具有不同结构来达到更好的泛化性能,本文选择了适于处理序列数据的循环神经网络和在图像分类中性能突出的宽度残差网络作为基分类器。

基分类器介绍

1.长短时记忆循环神经网络

    由于本身独特的结构,RNN拥有强大的处理序列数据的能力。隐含层在前后时间步间的连接使上一步的隐含层状态能够传递给当前步的隐含层。如此循环传递下去,序列中第一步的信息就能传递到最后一步,序列相关性得以建模。然而,当输入序列达到一定长度,由于梯度消失问题RNN的性能会急剧下降,长短时记忆模型就是为了克服该问题而设计的。

    总体来说,一个LSTM模块包括四个元素:输入门i、遗忘门f、输出门o和记忆单元c,三个门负责调节记忆单元前后时间步状态之间的关系。以某个时间步t为例,RNN的输入是xt,三个门和记忆单元的状态依次是it、ft、ot和ct,该层LSTM的输出是ht,它们之间的关系由下式表示:

    (1)                        

    (2)                      

    (3)                     

(4)                     

    (5)                                         

    其中Wx.、Wh.、Wc.分别是输入层、隐含层输出、记忆单元与各个门的连接权重;b.代表各个门的偏置。

2.宽度残差网络

    众所周知,同样是出于梯度消失,CNN层数越多越难训练。为了训练深层的卷积网络,残差网络得以提出。实验证明残差网络可以在比传统CNN层数深得多的情况下取得优越的图像识别性能。受残差网络加深层数的启发,文献中提出了宽度残差网络,以更浅层数、更大宽度的网络结构进一步提升了图像识别准确率。

    残差网络由残差模块顺序堆叠构成,一个残差模块中通常包括两个卷积层,每个卷积层前面分别有一个批归一化层和ReLu激活函数层。对比普通的残差网络,WRN把每层卷积层中的卷积核个数扩展为原来的K倍,加宽了卷积层以提高它们的特征学习能力。研究表明WRN可以用浅得多的层数达到与普通残差网络相同的图像识别率。图1展示了一个残差模块和一个WRN的结构。图1中WRN使用了四类残差模块,它们的卷积核数目分别为16、。连续N个同类残差模块堆叠为一个组,四组残差模块和池化层、softmax层按序堆叠最终构成一个WRN。

集成神经网络语音情感识别系统

1.RNN语音情感识别子系统

    RNN子系统的框图如图2所示。其中系统的输入为句子的特征序列s(1),s(2),,S(T),T为句子被分割成的段数,同时也是RNN网络的时间步数,s(t)为句子中第t段语音提取的特征向量。系统计算流程如下:在每一时间步,原始特征向量通过一层全连接层后进入LSTM层;所有时间步的LSTM层输出在随后的池化层进行平均,得到这句输入的全局特征;全局特征输入softmax层计算句子属于每一类情感的概率,据此产生识别结果。由于RNN直接对整个句子进行了处理,训练过程中只需要使用句子的标签作为训练目标,训练中损失函数使用交叉熵。

图2RNN子系统

    RNN输入的语音段特征s(t)由某个时间窗内的帧特征堆叠而成,给定时间窗长w和帧特征f(t),s(t)可以表示为。本文中,帧特征包括12维MFCC、能量、过零率、基频、声音质量和他们的时间差分,共计32维。

2.WRN语音情感识别子系统

    WRN子系统的框图如图3所示。一句话的频谱在时间轴上被切分为若干段,频谱段输入WRN得到关于每类情感的概率分布。对这些频谱段的输出计算统计值作为句子的全局特征,全局特征输入一层softmax便得到该句话关于每类情感的概率分布,最终得到识别结果。总的来说,WRN子系统由两部分构成:一个对频谱段分类的WRN分类器,一个对整个句子分类的softmax分类器。系统训练时,首先所有训练样本被切分为频谱段,每个频谱段被赋予所属句子的情感标签并输入WRN训练,随后训练频谱段在WRN的输出按所属句子聚合并计算全局特征,由此softmax的训练数据变成了以句子为单位并以句子的情感标签为目标进行训练。

图3WRN子系统

    该子系统中全局特征按如下方法计算。以句子i为例,假设任务中需识别K类情感,频谱段s输入WRN后得到属于第k类情感Ek的概率为Ps(Ek),对,分别计算以下式子,其中U为属于i的频谱段的集合:

(6)  

(7) 

(8)

(9)

,,,分别代表i中所有频谱段属于Ek的平均概率、最小概率、最大概率和概率大于0.5的频率,于是i的全局特征可以表示为

3.集成神经网络的语音情感识别系统

    集成系统由两个基分类器和一层集成层softmax组成,如图4所示。RNN子系统和WRN子系统的输出结果都是关于情感类别的概率分布向量,为了实现集成,本文把两个向量相加作为新的全局变量。具体来说,给定训练集,其中是语音样本,是对应标签,N是样本数目,首先分别训练RNN和WRN子系统,对样本i,每个子系统都产生一个概率向量,分别记为。两个向量相加产生新的全局变量

       (10)

    在集成层,就作为训练数据训练softmax分类器。

图4集成网络语音情感识别系统

    测试阶段,测试语音同时进入两个子系统并产生概率分布向量,随后由式(10)计算全局变量,输入集成层产生最终的情感识别结果。

结束语

    针对语音情感识别任务,本文运用集成方法设计和实现了一种使用循环神经网络和宽度残差网络作为基分类器的集成系统。该方法致力于结合拥有不同架构的深度神经网络的优势,从而提高语音情感识别的准确率。特别地,循环神经网络用于建模序列信息并在句子层次给出识别结果,而宽度残差网络学习频谱段的特征表达并在语音段层次进行识别。实验证明了该集成系统相比于单分类器语音情感识别系统的有效性,也表明由本文首次引入语音情感识别领域的宽度残差网络在这方面有着不逊于主流的基于循环神经网络方法的性能。令人略感遗憾的是本实验中由集成方法带来的性能提升并不突出,可能的原因有两点,一是实验采用的数据库存在数据不均衡的问题,二是集成方法的设计问题。关于这两点,在未来的工作中,我们将会探索数据增强的方法以缓解数据集分布不均衡的问题,也将尝试使用不同的集成方法以增强系统对语音情感的建模能力。

标签: 神经网络
打赏

免责声明:
本站部份内容系网友自发上传与转载,不代表本网赞同其观点;
如涉及内容、版权等问题,请在30日内联系,我们将在第一时间删除内容!

购物指南

支付方式

商家合作

关于我们

微信扫一扫

(c)2008-2018 DESTOON B2B SYSTEM All Rights Reserved
免责声明:以上信息由相关企业或个人自行免费发布,其真实性、准确性及合法性未证实。请谨慎采用,风险自负。本网对此不承担任何法律责任。

在线咨询

在线咨询:

QQ交流群

微信公众号