1. 首页
  2. 科技部落

浅谈语音情感识别技术在互金质检领域的应用

【导语】随着科学技术的发展,记录人类情感或情绪(开心,愤怒,伤心,害怕等)的数据种类变得多种多样。最早的形式莫过于写作,人们通过写作来记录自己或是他人在某时某刻对某事的情感;照相机的发明(1839年)使得情感又可以以图像的形式保存,能够让观看者更加直观地体会被拍摄者的情绪;而录音机发明(1898年)后,几乎又可以使听众身临其境般地体会被记录者的情绪。

随着以上三种数据(文本、图像、语音)的数字化,又使得存储于三种数据形式的情感可以通过相关的数据挖掘技术进行自动检测识别。对于基于文本和图像的情感检测,拍拍贷都已经做过相关研究和应用。本文主要对基于语音的情感识别技术和应用进行简要的介绍。

 

– 【技术简介】 –

语音情感识别技术(Speech Emotion Analysis / Recognition)是语音分析技术的一种,指通过一段语音的声学特征(acoustic features)来识别说话人情感的技术。其基本假设是可以使用一系列客观的、可提取的声学特征(声学特征往往是跟语音内容和语种无关的)来反映说话人当前的情感状态。举个例子来说,当人处于生气或者愤怒状态时,交感神经会影响呼吸系统并造成相应的肌肉紧张,从而影响声带振动和声道形状,进而导致说话声学特征的改变。

浅谈语音情感识别技术在互金质检领域的应用

 

– 【算法】 –

对于任意一种数据的检测或是识别任务,无论是结构化数据、图像数据、文本数据等,其基本框架往往都是特征提取加分类器结构,即便是目前流行的以CNN为代表的深度学习神经网络,也只是将特征提取部分自动化了而已(由一系列卷积核自动提取的特征代替人工设计的特征)。语音作为一种一维时序信号也不例外,对于它的分析、检测、识别算法往往也是这种框架,但是音频特征往往并不是直接从时域提取,而是依靠声谱图(语谱图,Spectrogram)提取。

下图是声谱图提取过程示意图:

浅谈语音情感识别技术在互金质检领域的应用

声谱图提取过程示意图

1是原始的一维语音时序信号,首先对其进行时域分帧(frame),每帧约20-30毫秒(一般认为在此时间段内的声学特征比较稳定),帧与帧之间往往还有50%的时间重叠(overlap);2是对帧内的语音信号做短时傅里叶变换(STFT),得到其频谱图(spectrum);最后3由多帧频谱图组合生成图3的声谱图,其中纵轴是频率,横轴是时间。

在声谱图的基础上,我们可以提取一系列短时特征(short-term feature)。在各种短时特征中,最常用的便是梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents,MFCC)。

梅尔频率倒谱系数描述了人耳频率的非线性特性,能够反映人对语音的感知特性。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度,人类听觉的感知只聚焦在某些特定的区域,而不是整个频谱。人耳就像一个滤波器组一样,对频率是有选择性的,它只关注某些特定的频率分量。仿照人耳的非线性特征,梅尔滤波器在低频区域有很多的滤波器,分布比较密集,但在高频区域,滤波器的数目就变得比较少,分布很稀疏。

浅谈语音情感识别技术在互金质检领域的应用

梅尔滤波器,低频区域较多,高频区域较少

梅尔频率倒谱系数的简要计算过程是:

  1. 在声谱图上,使每帧的频谱图通过梅尔滤波器(Mel-Filters),从而得到梅尔频谱图(Mel-Spectrum);
  2. 对梅尔频谱图做倒谱分析(Cepstral Analysis),便可以得到此帧音频的梅尔倒谱系数。

标准梅尔倒谱系数只反映了静态特性,语音的动态特性可以用这些静态特征的差分谱来描述,常见的有一阶差分(1D)和二阶差分(2D)特征。

除了梅尔倒谱系数以外,常用的短时特征还有过零率(zero crossing rate),能量(energy),能量熵(entropy of energy),音高扰动(jitter,pitch perturbations),声音强度(voice intensity),响度扰动(shimmer,loudness perturbations)等。除了短时特征,在某些场景还可以提取语音信号的中时特征(mid-term feature),既在中时时间窗内求取短时特征的统计特征,例如均值和方差等。

对于情感模型的训练数据,我们选择了开源语音情感数据库Berlin Database of Emotional Speech(Emo_DB),它共有500段音频数据,由10位演员录制(5男,5女,年龄在30岁左右),标注的情感有七种:中性(neutral),开心(happiness),愤怒(anger),伤心(sadness),害怕(fear),厌烦(boredom),反感(disgust)。我们选取了其中的五种比较常见的情感(中性,开心,愤怒,伤心,害怕)的408段音频数据提取声学特征来训练模型。模型采用四层神经网络结构,输入层为提取的声学特征,中间两层隐藏层,输出层为五种情绪的概率值(softmax)。

浅谈语音情感识别技术在互金质检领域的应用

 

– 【场景应用】 –

十年间,拍拍贷积累了大量的语音数据,主要形式是各个业务场景下的电话录音数据。目前,情感识别技术已经被应用在电话业务相关场景中,对于一通电话,我们首先分别对坐席线路和客户线路的语音数据进行静音检测(VAD)来划分有效语音片段;然后再对各个有效语音片段进行情感分析,得到五种情绪的概率分数;最后将情绪分数作为输入(X)送入各种后续模型场景当中(Y)。对于坐席和客户,我们有不同的分析场景:

  1. 对于坐席线路,我们重点分析坐席是否在通话中有不良的情绪,将情绪分数作为语音质检模型输入的一部分,进一步综合判断坐席是否存在违规现象。此外,还可以结合历史数据建立模型,来预测坐席近期的服务满意度、是否会离职等等。
  2. 对于客户线路,我们重点分析客户在通话期间情绪随时间的变化,特别是通话开始和结束的情绪变化(是否经过坐席的沟通,客户的情绪有了好转迹象),以此来评估客户的满意程度和坐席的服务质量,并且还会以此生成客户的倾向特征标签。

浅谈语音情感识别技术在互金质检领域的应用

电话场景中的情感识别应用

目前,情感识别技术作为电话质检类应用(质检机器人)的重要组成部分已经上线,该应用日均覆盖录音量2万通。对比人工检测,已经达到10倍的效率提升,约25%的准确率提升。情感分析技术在其他场景的应用开发也在排期规划中。

 

– 【总结】 –

本文简要介绍了基于语音的情感识别技术及其应用场景。语音情感识别是拍拍贷在语音分析的首次尝试,可以为各种场景模型提供语音维度的额外信息,进而提升相应场景模型的效果。犹如开篇提到的记录人类情感的三种数据(文本、图像、语音),对于一段视频数据,我们现在可以从三个维度来综合判断被记录者表达的感情:

  1. 对话文本的情感分析(通过语音转写提取);
  2. 人像面部表情的提取;
  3. 语音情感的识别。

未来我们会尝试开发实时的情感识别技术,对违规坐席的通话进行实时干预,提升客户体验。同时我们也会在其他语音分析技术方面做更多的尝试,充分挖掘已有音频数据的价值。

 

– 【参考文献】 –

[1]https://baike.baidu.com/item/%E8%AF%AD%E9%9F%B3%E5%88%86%E6%9E%90/1999308

[2]http://www.fon.hum.uva.nl/praat/

[3]http://www.scholarpedia.org/article/Speech_emotion_analysis

[4]https://developers.vokaturi.com/getting-started/overview

[5]http://emodb.bilderbar.info/index-1280.html

[6]http://kahlan.eps.surrey.ac.uk/savee/

[7]https://zhuanlan.zhihu.com/p/23305179?refer=waytoai

[8]https://blog.csdn.net/zouxy09/article/details/9156785

[9]http://www.speech.cs.cmu.edu/15-492/slides/03_mfcc.pdf

[10]Theodoros G. pyAudioAnalysis: An Open-Source Python Library for Audio Signal Analysis[J]. Plos One, 2015, 10(12):e0144610.

[11]https://en.wikipedia.org/wiki/Spectrogram

[12]https://baike.baidu.com/item/%E7%85%A7%E7%9B%B8%E6%9C%BA/1733?fr=aladdin

[13]https://baike.baidu.com/item/%E5%BD%95%E9%9F%B3%E6%9C%BA/78941?fr=aladdin