语言是文化的载体,也是交流的工具。互联网将全球连接得越来越紧密,各种语种之间的交流越来越频繁。作为语种间交流的基础,自动语种辨识的需求越来越广泛。即使在中国国内,同是汉语,不同方言之间也有很大差别,讲不同方言的人群要直接交流仍然存在一定障碍。比如,在客服场景中,方言的自动识别有助于快速识别客户籍贯,进而匹配相应籍贯的坐席,使得客户和客服能更好地沟通,为客户提供更周到的服务。
本文将以方言分类为例,介绍语种识别的方法,这其实是一种基于深度学习的并可推广到其他语音分类问题的框架。
方言模型框架
方言识别本质上是一种有监督的语音分类问题(图1),即用机器学习或是深度学习技术通过预先标注好的语音数据进行训练,再对未标记的语音数据推断打分,进而判断语音所属的方言类别。
预处理
语音本质上是一种一维时序信号,有其独特的预处理步骤,例如声道选取,采样率转换,VAD等:
声道选择 – 电话语音是双声道数据,左声道是客服语音,右声道是客户语音,可以根据实际需要选择使用左声道数据或是右声道数据,使用单一声道的好处是可以消除不同说话人的影响,训练数据更加纯净。
采样率转换 – 常用电话语音的采样率是8000Hz,即每8000个的采样点代表1秒的通话时长,如果语音模型是应用于电话场景,则最好在训练时将语音的采样率统一调整为8000Hz。
VAD – 在图像分类问题中往往是将整张图片作为输入送入模型,然而对于语音来说,它是有“有效区“(图2)这个概念的。最好仅仅将语音有效区域的信号作为模型输入进行训练,VAD(Voice Activity Detection,语音活动检测)便是这种技术。
时长确定 – 对于深度学习网络来说,其输入的信号最好是固定时长的。理论上对于同样的网络结构,语音时长越短,模型的系数越少,训练和推断也是越快的,因此从效率角度是时长越短越好。当然,时长过短可能会导致模型不足以区分比较复杂的任务。从作者个人经验来看,解决一个问题所需的最短时长往往跟问题本身的难度有关,一般需要1秒以上。
数据增强 – 数据增强的一个目的是为了让有限的训练数据表现出更多的多样性,进而防止模型过拟合。图像处理中常用的数据增强方法有旋转、镜像等操作,对于语音来说可以对信号本身的增益(可以理解为音量)做随机的调整。
模型训练
基于传统机器学习的语音分类往往采用声学特征加分类器的框架,对于深度学习来说,也同样可以以声学特征作为输入,进而使用深度学习网络进一步自动提取特征。比较常用声学特征是基于梅尔倒谱系数的声谱图(MFCC,图3中从左到右为原始音频信号,傅里叶频谱图,梅尔声谱图)。
为了达到端到端的训练目的,本文没有采用声谱图加深度学习的模式,而是选择直接将一维语音信号作为输入送入深度学习网络,然后在网络内部生成类似声谱图的二维张量(tensor),再对此二维张量使用图像处理中的一些成熟网络结构进行训练。本文主要使用两种方法将一维信号转成二维张量:
方法一
使用Kapre[1]来代替网络外的声谱图提取过程,Kapre提供梅尔倒谱系数生成层(Melspectrogram layer,图4),可以方便的在网络内部生成声谱图。
方法二
借鉴EnvNet[2]对于输入的一维语音信号处理方法,即直接采用1维卷积加池化的方法将语音变成二维张量(图5)。
得到二维的特征张量之后,我们使用图像处理常用的VGG和ResNet结构进行进一步的特征提取和处理。
方言实验
为了验证方法框架的效果,我们利用 “讯飞方言种类识别AI挑战赛”[3]初赛的六种方言数据(16000Hz,16bit pcm)做了一个简单的验证。六种方言包括:上海话,长沙话,河北话,闽南话,南昌话,客家话。数据分为训练集(train),长语音测试集(dev long)和短语音测试集(dev short)。实验以讯飞训练集作为训练集,长语音测试集作为验证集。模型收敛后,我们对长语音测试集进行推断,图7是模型在验证集的分类结果。
从总体模型分类结果上看,模型对于6种方言数据的平均查准率达到0.8096,平均查全率达到0.7740,平均F1值0.7592。结果数据告诉我们客家话和闽南话看起来区分难度很大,特别是闽南话,查全率和查准率都不高。
结语
本文以方言识别为例介绍了一种基于深度学习的语音分类方法,方法不仅仅适合于方言识别分类,同样可以适用于语音性别分类,语音年龄分类,语音情感分类等等各种语音分类问题,可以根据分类问题的实际难度对网络进行调整。
未来我们会在以下几方面继续进行研究:
- 讯飞方言种类识别AI挑战赛复赛又提供了四种新方言数据:合肥话,宁夏话,陕西话和四川话,可以用原有框架在10种方言重新训练,丰富方言模型。
- 可以在各种分类问题中尝试BC Learning方法,此种方法在图像处理和语音分类问题中已经被一些研究者[4,5]实践过,并取得不错的效果。
本文来自信也科技拍黑米,经授权后发布,本文观点不代表信也智慧金融研究院立场,转载请联系原作者。