weixin 发表于 2017-12-29 10:10

基于深度学习的自动语音识别已接近人类水平

  2016年10月,微软人工智能与研究部门在发表的论文《Achieving Human Parity in Conversational SpeechRecognition》中,报告出他们的语音识别系统实现了与专业转录员相当的5.9%的词错误率。这意味着计算机在识别对话语音任务中能做到和人类一样好。识别系统词错误率的测定来自Switchboard电话交谈语音识别任务,这个语料库20多年来一直是语音识别系统的性能检测标准。文中利用lattice-free MMI目标函数,对长短时记忆神经网络声学模型和各种基于卷积神经网络变体的声学模型进行训练,如残差网络,VGG网络和LACE网络(如图1所示)。使用每个声学模型构建的子系统对测试集解码,并系统地结合上述解码结果,使用长短时记忆神经网络语言模型对解码结果进行重新打分。
  图1
  今年3月,IBM公司在论文《English Conversational Telephone Speech Recognition byHumans and Machines》中宣布超越了之前微软报告的最佳水平,开发出词错误率为5.5%的语音识别系统。系统采用三种神经网络声学模型,即输入为多种特征融合的LSTM声学模型,基于i-vector估计的多任务LSTM声学模型(如图2所示)以及残差网络声学模型(如图3所示)。识别过程中,对三个声学模型得到的帧级别后验概率以加权的方式融合,得到声学得分。经典的n-gram语言模型用做一遍解码,采用基于词类的最大熵语言模型、词级别卷积神经网络语言模型和不同建模单元的LSTM语音模型对解码结果进行重打分。同时文中指出,卷积神经网络与递归神经网络有较好的互补性,二者的结合可显著地改善识别性能。
  图2
  图3
  深度学习技术的发展已经推动语音识别技术走向实际应用。语音搜索(朗读风格)准确率已达到95%以上,在搜索引擎中,通过语音进行搜索的比例会逐步提高。自然口语对话识别准确率目前也已达到了80%以上,全面应用于智能客服等领域。

  当然,语音识别技术依然面临一系列挑战,比如噪声问题、跨信道问题、多语言问题等等。这些问题都需要全世界的科学家一起努力克服!

  来源:转载自中科院声学所图书馆(ID:ioa-lib)
  原文来自《声讯》2017年第三期《声学前沿》栏目
  作者:中科院语言声学与内容理解重点实验室

页: [1]
查看完整版本: 基于深度学习的自动语音识别已接近人类水平