深度学习应用 - 语音识别篇

序言

在科技日新月异的今天，人工智能正以前所未有的速度渗透到我们生活的每一个角落，其中，深度学习作为人工智能领域的一股强大驱动力，正引领着一场技术革命。语音识别，作为深度学习应用的璀璨明珠，不仅极大地提升了人机交互的自然性与便捷性，还开启了智能化时代的新篇章。它让机器能够“听懂”人类的语言，从简单的指令执行到复杂的对话交流，不断跨越着技术的边界，让科幻电影中的场景逐步成为现实。

语音识别

语音识别任务在于将一段包括了自然语言发音的声学信号投影到对应说话人的词序列上。
- 令 $\boldsymbol{X}=(\boldsymbol{x}^{(1)},\boldsymbol{x}^{(2)},\dots,\boldsymbol{x}^{(T)})$ 表示语音的输入向量（传统做法以 $20\text{ms}$ 为一帧分割信号）。
- 许多语音识别的系统通过特殊的手工设计方法预处理输入信号，从而提取特征，但是某些深度学习系统 ( $\text{Jaitly and Hinton, 2011}$ ) 直接从原始输入中学习特征。
- 令 $\boldsymbol{y}=(y_1,y_2,\dots,y_N)$ 表示目标的输出序列（通常是一个词或者字符的序列）。
- 自动语音识别 ( $\text{Automatic Speech Recognition, ASR}$ ) 任务指的是构造一个函数 $f_{\text{ASR}}^\ast$ ，使得它能够在给定声学序列 $\boldsymbol{X}$ 的情况下计算最有可能的语言序列 $\boldsymbol{y}$ ：
  $f_{\text{ASR}}^\ast(\boldsymbol{X})=\argmax P^\ast(\text{y}\mid\bold{X}=\boldsymbol{X})$ $\quad\textbf{---\footnotesize{公式1}}$
  - 说明：其中 $P^\ast$ 是给定输入值 $\boldsymbol{X}$ 时对应目标 $\boldsymbol{y}$ 的真实条件分布。
从 $\underline{20}$ 世纪 $\underline{80}$ 年代直到 $\underline{2009-2012}$ 年，最先进的语音识别系统是隐马尔可夫模型 ( $\underline{\text{Hidden Markov Model, HMM}}$ ) 和高斯混合模型 ( $\underline{\text{Gaussian Mixture Model,GMM}}$ ) 的结合。
- $\text{GMM}$ 对声学特征和音素 ( $\text{phoneme}$ ) 之间的关系建模 ( $\text{Bahl et al., 1987}$ )， $\text{HMM}$ 对音素序列建模。
- $\text{GMM-HMM}$ 模型将语音信号视作由如下过程生成：
  - 首先，一个 $\text{HMM}$ 生成了一个音素的序列以及离散的音素子状态（比如每一个音素的开始，中间，结尾），
  - 然后 $\text{GMM}$ 把每一个离散的状态转化为一个简短的声音信号。
尽管直到最近 $\text{GMM-HMM}$ 一直在 $\text{ASR}$ 中占据主导地位，语音识别仍然是神经网络所成功应用的第一个领域。
- 从 $20$ 世纪 $80$ 年代末期到 $90$ 年代初期，大量语音识别系统使用了神经网络：
  - $\text{Bourlard and Wellekens, 1989}$
  - $\text{Waibel et al., 1989}$
  - $\text{Robinson and Fallside, 1991}$
  - $\text{Bengio et al., 1991, 1992}$
  - $\text{Konig et al., 1996}$
- 在那段时间，基于神经网络的 $\text{ASR}$ 的表现和 $\text{GMM-HMM}$ 系统的表现差不多。
- 比如说， $\text{Robinson and Fallside (1991)}$ 在 $\text{TIMIT}$ 数据集 ( $\text{Garofolo et al., 1993}$ )（有 $39$ 个区分的音素）上达到了 $26\%$ 的音素错误率，这个结果优于或者是可比于基于 $\text{HMM}$ 的结果。
- 从那时起， $\text{TIMIT}$ 成为了音素识别的一个基准数据集，在语音识别中的作用就和 $\text{MNIST}$ 在对象识别中的作用差不多。
- 然而，由于语音识别软件系统中复杂的工程因素以及在基于 $\text{GMM-HMM}$ 的系统中已经付出的巨大努力，工业界并没有迫切转向神经网络的需求。
- 结果，直到 $21$ 世纪 $00$ 年代末期，学术界和工业界的研究者们更多的是用神经网络为 $\text{GMM-HMM}$ 系统学习一些额外的特征。
之后，随着更大更深的模型以及更大的数据集的出现，通过使用神经网络代替 $\text{GMM}$ 来实现将声学特征转化为音素（或者音素的子状态）的过程可以大大地提高识别的精度。
- 从 $2009$ 年开始，语音识别的研究者们将一种无监督学习的深度学习方法应用于语音识别。
- 这种深度学习方法基于训练一个被称作是受限玻尔兹曼机的无向概率模型，从而对输入数据建模。
- 受限玻尔兹曼机将会在后续篇章中描述。为了完成语音识别任务，无监督的预训练被用来构造一个深度前馈网络，这个神经网络每一层都是通过训练受限玻尔兹曼机来初始化的。
- 这些网络的输入是从一个固定规格的输入窗（以当前帧为中心）的谱声学表示抽取，预测了当前帧所对应的 $\text{HMM}$ 状态的条件概率。
- 训练一个这样的神经网络能够可以显著提高在 $\text{TIMIT}$ 数据集上的识别率 ( $\text{Mohamed et al., 2009, 2012a}$ )，并将音素级别的错误率从大约 $26\%$ 降到了 $20.7\%$ 。
- 关于这个模型成功原因的详细分析可以参考 $\text{Mohamed et al. (2012b)}$ 。
- 关于基本电话通道识别的一个扩展工作包括了添加说话人自适应相关特征 ( $\text{Mohamed et al., 2011}$ ) 的方法，可以进一步地降低错误率。
- 紧接着的工作是将结构从音素识别（ $\text{TIMIT}$ 所主要关注的）转向了大规模词汇语音识别 ( $\text{Dahl et al., 2012}$ )，这不仅包含了识别音素，还包括了识别大规模词汇的序列。
- 语音识别上的深度网络从最初的使用受限玻尔兹曼机进行预训练发展到了使用诸如整流线性单元和 $\text{Dropout}$ 这样的技术 ( $\text{Zeiler et al., 2013; Dahl et al., 2013}$ )。
- 从那时开始，工业界的几个语音研究组开始寻求与学术圈的研究者之间的合作。
- $\text{Hinton et al. (2012a)}$ 描述了这些合作所带来的突破性进展，这些技术现在被广泛应用在产品中，比如移动手机端。
随后，当他们使用了越来越大的带标签的数据集，加入了各种初始化，训练方法以及调试深度神经网络的结构之后，他们发现这种无监督的预训练方式是没有必要的，或者说不能带来任何显著的改进。
用语音识别中词错误率来衡量，在语音识别性能上的这些突破是史无前例的（大约 $30\%$ 的提高），在这之前的长达十年左右的时间基于 $\text{GMM-HMM}$ 的系统的传统技术已经停滞不前了，尽管数据集的规模是随时间增长的。这也导致了语音识别领域快速地转向深度学习的研究。在大约的两年时间内，工业界的大多数的语音识别产品都包含了深度神经网络，这种成功也激发了 $\text{ASR}$ 领域对深度学习算法和结构的一波新的研究浪潮，并且影响至今。
其中的一个创新点是卷积网络的应用 ( $\text{Sainath et al., 2013}$ )。
- 卷积网络在时间和频率维度复用了权重，改进了之前的仅对时间使用重复权值的时延神经网络。
- 这种新的二维的卷积模型并不是将输入的频谱当作一个长的向量，而是当成是一个图像，其中一个轴对应着时间，另一个轴对应的是谱分量的频率。
另一个重要的至今仍然活跃的推动，是完全抛弃了 $\text{HMM}$ 的端到端的深度学习语音识别系统。
- 这个领域第一个主要的突破是 $\text{Graves et al. (2013)}$ ，其中训练了一个深度的长短期记忆循环神经网络（见序列建模之循环和递归网络 - 长短期记忆和其他门控RNN篇），使用了帧－音素排列的 $\text{MAP}$ 推断，就像 $\text{LeCun et al. (2001)}$ 以及 $\text{CTC}$ 框架 ( $\text{Graves et al., 2006; Graves, 2012}$ ) 中一样。
- 一个深度循环神经网络 ( $\text{Graves et al., 2013}$ ) 每个时间步各层都有状态变量，有两种展开图的方式：
  - 一种是根据层的堆叠，
  - 另一种是时间展开。
- 这个工作把 $\text{TIMIT}$ 数据集上音素的错误率降到了记录的新低 $17.7\%$ 。
- 关于应用于其他领域的深度循环神经网络的变种可以参考：
  - $\text{Pascanu et al. (2014a)}$ ;
  - $\text{Chung et al. (2014)}$ 。
另一个端到端的深度学习语音识别方向的最新方法是让系统学习如何利用语音 ( $\text{phonetic}$ ) 层级的信息 ‘‘排列”声学 ( $\text{acoustic}$ ) 层级的信息 ( $\text{Chorowski et al., 2014;Lu et al., 2015}$ )。

总结

深度学习在语音识别领域的广泛应用，不仅标志着技术的一次重大飞跃，也深刻改变了我们的生活方式和工作模式。从智能手机上的语音助手，到智能家居的语音控制，再到医疗、教育、金融等多个行业的智能化转型，语音识别技术正以其独特的魅力，推动着社会各领域的智能化进程。
随着算法的不断优化、计算能力的持续提升以及大数据的丰富积累，未来，语音识别将更加精准、高效，进一步拓宽应用场景，深化人机共融的智能化未来。在这个过程中，我们见证并参与了一个时代的变革，感受着科技带来的无限可能与惊喜。

往期内容回顾

序列建模之循环和递归网络 - 长短期记忆和其他门控RNN篇

深度学习应用 - 语音识别篇

序言

语音识别

总结

往期内容回顾

最新新闻

热搜词