14.6 小结与拓展阅读 499
14.6 小结与拓展阅读
推断系统(或解码系统)是神经机器翻译的重要组成部分。在神经机器翻译研
究中,单独针对推断问题开展的讨论并不多见。更多的工作是将其与实践结合,常
见于开源系统、评测比赛中。但是,从应用的角度看,研发高效的推断系统是机器翻
译能够被大规模使用的前提。本章也从神经机器翻译推断的基本问题出发,重点探
讨了推断系统的效率、非自回归翻译、多模型集成等问题。但是,由于推断阶段涉及
的问题十分广泛,因此本章也无法对其进行全面覆盖。关于神经机器翻译模型推断
还有以下若干研究方向值得关注:
• 机器翻译系统中的推断也借用了统计推断(Statistical Inference)的概念。传统意
义上讲,这类方法都是在利用样本数据去推测总体的趋势和特征。因此,从统
计学的角度也有很多不同的思路。例如,贝叶斯学习等方法就在自然语言处理
中得到广泛应用
[760, 761]
。其中比较有代表性的是变分方法(Variational Methods)。
这类方法通过引入新的隐含变量来对样本的分布进行建模,从某种意义上说它
是在描述“分布的分布”,因此这种方法对事物的统计规律描述得更加细致
[762]
。
这类方法也被成功地用于统计机器翻译
[405, 763]
和神经机器翻译
[764, 765, 766, 767]
。
• 推断系统也可以受益于更加高效的神经网络结构。这方面工作集中在结构化
剪枝、减少模型的冗余计算、低秩分解等方向。结构化剪枝中的代表性工作是
LayerDrop
[768, 769, 770]
,这类方法在训练时随机选择部分子结构,在推断时根据输
入来选择模型中的部分层进行计算,而跳过其余层,达到加速的目的。有关减
少冗余计算的研究主要集中在改进注意力机制上,本章已经有所介绍。低秩分
解则针对词向量或者注意力的映射矩阵进行改进,例如词频自适应表示
[771]
,词
频越高则对应的向量维度越大,反之则越小,或者层数越高注意力映射矩阵维
度越小
[729, 772, 773, 774]
。在实践中比较有效的是较深的编码器与较浅的解码器结合
的方式,极端情况下解码器仅使用 1 层神经网络即可取得与多层神经网络相媲
美的翻译品质,从而极大地提升翻译效率
[775, 776, 777]
。在第十五章还会进一步对
高效神经机器翻译的模型结构进行讨论。
• 在对机器翻译推断系统进行实际部署时,对存储的消耗也是需要考虑的因素。
因此如何让模型变得更小也是研发人员所关注的方向。当前的模型压缩方法主
要可以分为几类:剪枝、量化、知识蒸馏和轻量方法,其中轻量方法的研究重
点集中于更轻量模型结构的设计,这类方法已经在本章进行了介绍。剪枝主要
包括权重大小剪枝
[778, 779, 780, 781]
、面向多头注意力的剪枝
[541, 726]
、网络层以及其他
结构剪枝等
[782, 783]
,还有一些方法也通过在训练期间采用正则化的方式来提升
剪枝能力
[768]
。量化方法主要通过截断浮点数来减少模型的存储大小,使其仅使
用几个比特位的数字表示方法便能存储整个模型,虽然会导致舍入误差,但压
缩效果显著
[547, 784, 785, 786]
。一些方法利用知识蒸馏手段还将 Transformer 模型蒸馏
成如 LSTMs 等其他各种推断速度更快的结构
[549, 727, 787]
。