352 Chapter 6. 神经机器翻译模型 肖桐 朱靖波
6.6 小结及深入阅读
神经机器翻译是近几年的热门方向。无论是前沿性的技术探索,还是面向应用
落地的系统研发,神经机器翻译已经成为当下最好的选择之一。研究人员对神经机
器翻译的热情使得这个领域得到了快速的发展。本章作为神经机器翻译的入门章节,
对神经机器翻译的建模思想和基础框架进行了描述。同时,对常用的神经机器翻译
架构 循环神经网络和 Transformer 进行了讨论与分析。下一章会对神经机器翻
中的一些常用技术和前沿方法进行进一步介绍。
经过几年的积累,神经机器翻译的细分方向经十分多样,由于篇幅所限,这
里也无法覆盖所有内容(虽然笔者尽所能全面介绍相关的基础知识,但是难免会有
疏漏)。很多神经机器翻译的模型和方法值得进一步学习和探讨:
无论是循环神经网络还是 Transformer 都有很多变种结构。比如,除了 RNN
LSTMGRU还有其他改进的循环单元结构, LRN[338]SRU[164]ATR[341]
Transformer 是近些年的热门,它也衍生出很多的改进版本,如相对位置编码
[255]局部注意力机制 [329]多层信息交互 [300]深层网络 [299]此外,
构,络,
[84][310]。最近,也有一些研究者探索异构系统,使用不同的神经网络结构搭
建编码器和解码器 [34]比如,编码端使用性能更强的 Transformer而解码端
使用速度更快的循环神经网络。
使
因素之一 [179][289][207]。早期,有研究者尝试将注意力机制和统计机器翻译
的词对齐行统 [303]。近年,也有研已经发现意力型可以捕
些语言现象 [296],比如,在 Transformer 的多头注意力中,不同头往往会捕捉
到不同的信息,比如,有些头对低频词更加敏感,有些头更适合词意消歧,甚
至有些头可以捕捉句法信息。此外,由于注意力机制增加了模型的复杂性,
且随着网络层数的增多,神经机器翻译中也存在大量的冗余,因此研发轻量的
注意力模型也是具有实践意义的方向 [316]
一般来说,神经机器翻译的计算过程是没有人工干预的,翻译流程也无法用人
类的知识直接进行解释,因此一个有趣的方向是在神经机器翻译中引入先验知
识,使得机器翻译的行为更 人。比如,可以使用句法树来引入人类的语言
学知 [305, 330]于句法的神经器翻译也包含量的树结构的经网
建模 [95, 304]。此外,也可以把用户定义的词典或者翻译记忆加入到翻译过程
[54, 347],使得用户的约束可以直接反映到机器翻译的结果上来。先验知识
的种类还有很多,包括词对齐 [170, 345]篇章信息 [295, 308] 等等,都是神经
机器翻译中能够使用的信息。
神经机器翻译依赖成本较高的 GPU 设备,因此对模型的裁剪和加速也是很多
系统研发人员所感兴趣的方向。比如,从工程上,可以考虑减少运算强度,
6.6 小结及深入阅读 353
如使用低精度浮点数或者整数进行计算,或者引入缓存机制来加速模型的推断
[19, 50]也可以通过对模型参数矩阵的剪枝,甚至对模块的剪枝,来减小整个
模型的体积 [248, 349]另一种方法是知识精炼。利用大模型训练小模型,这样
往往可以得到比单独训练小模型更好的效果 [36, 109, 275]