
352 Chapter 6. 神经机器翻译模型 肖桐 朱靖波
6.6 小结及深入阅读
神经机器翻译是近几年的热门方向。无论是前沿性的技术探索,还是面向应用
落地的系统研发,神经机器翻译已经成为当下最好的选择之一。研究人员对神经机
器翻译的热情使得这个领域得到了快速的发展。本章作为神经机器翻译的入门章节,
对神经机器翻译的建模思想和基础框架进行了描述。同时,对常用的神经机器翻译
架构 循环神经网络和 Transformer 进行了讨论与分析。下一章会对神经机器翻译
中的一些常用技术和前沿方法进行进一步介绍。
经过几年的积累,神经机器翻译的细分方向已经十分多样,由于篇幅所限,这
里也无法覆盖所有内容(虽然笔者尽所能全面介绍相关的基础知识,但是难免会有
疏漏)。很多神经机器翻译的模型和方法值得进一步学习和探讨:
• 无论是循环神经网络还是 Transformer 都有很多变种结构。比如,除了 RNN、
LSTM、GRU,还有其他改进的循环单元结构,如 LRN[338]、SRU[164]、ATR[341]
。Transformer 是近些年的热门,它也衍生出很多的改进版本,如相对位置编码
[255]、局部注意力机制 [329]、多层信息交互 [300]、深层网络 [299]。此外,其
他神经网络架构,如卷积神经网络,也是研发神经机器翻译系统很好的选择
[84][310]。最近,也有一些研究者探索异构系统,使用不同的神经网络结构搭
建编码器和解码器 [34],比如,编码端使用性能更强的 Transformer,而解码端
使用速度更快的循环神经网络。
• 注意力机制的使用是机器翻译乃至整个自然语言处理近几年获得成功的重要
因素之一 [179][289][207]。早期,有研究者尝试将注意力机制和统计机器翻译
的词对齐进行统一 [303]。近两年,也有研究已经发现注意力模型可以捕捉一
些语言现象 [296],比如,在 Transformer 的多头注意力中,不同头往往会捕捉
到不同的信息,比如,有些头对低频词更加敏感,有些头更适合词意消歧,甚
至有些头可以捕捉句法信息。此外,由于注意力机制增加了模型的复杂性,而
且随着网络层数的增多,神经机器翻译中也存在大量的冗余,因此研发轻量的
注意力模型也是具有实践意义的方向 [316]。
• 一般来说,神经机器翻译的计算过程是没有人工干预的,翻译流程也无法用人
类的知识直接进行解释,因此一个有趣的方向是在神经机器翻译中引入先验知
识,使得机器翻译的行为更 “像” 人。比如,可以使用句法树来引入人类的语言
学知识 [305, 330],基于句法的神经机器翻译也包含大量的树结构的神经网络
建模 [95, 304]。此外,也可以把用户定义的词典或者翻译记忆加入到翻译过程
来 [54, 347],使得用户的约束可以直接反映到机器翻译的结果上来。先验知识
的种类还有很多,包括词对齐 [170, 345]、篇章信息 [295, 308] 等等,都是神经
机器翻译中能够使用的信息。
• 神经机器翻译依赖成本较高的 GPU 设备,因此对模型的裁剪和加速也是很多
系统研发人员所感兴趣的方向。比如,从工程上,可以考虑减少运算强度,比