10.6 小结及拓展阅读 385
10.6 小结及拓展阅读
神经机器翻译是近几年的热门方向。无论是前沿性的技术探索,还是面向应用
落地的系统研发,神经机器翻译已经成为当下最好的选择之一。研究人员对神经机
器翻译的热情使得这个领域得到了快速的发展。本章作为神经机器翻译的入门章节,
对神经机器翻译的建模思想和基础框架进行了描述。同时,对常用的神经机器翻译
架构
——
循环神经网络进行了讨论与分析。
经过几年的积累,神经机器翻译的细分方向已经十分多样,由于篇幅所限,这
里也无法覆盖所有内容(虽然笔者尽所能全面介绍相关的基础知识,但是难免会有
疏漏)。很多神经机器翻译的模型和方法值得进一步学习和探讨:
• 循环神经网络有很多变种结构。比如,除了 RNN、LSTM、GRU,还有其他改
进的循环单元结构,如 LRN
[476]
、SRU
[477]
、ATR
[478]
。
• 注意力机制的使用是机器翻译乃至整个自然语言处理近几年获得成功的重要
因素之一
[22, 25]
。早期,有研究人员尝试将注意力机制和统计机器翻译的词对齐
进行统一
[479, 480, 481]
。最近,也有大量的研究工作对注意力机制进行改进,比如,
使用自注意力机制构建翻译模型等
[23]
。而对注意力模型的改进也成为了自然语
言处理中的热点问题之一。在第十五章会对机器翻译中不同注意力模型进行进
一步讨论。
• 一般来说,神经机器翻译的计算过程是没有人工干预的,翻译流程也无法用
人类的知识直接进行解释,因此一个有趣的方向是在神经机器翻译中引入先
验知识,使得机器翻译的行为更“像”人。比如,可以使用句法树来引入人类
的语言学知识
[433, 482]
,基于句法的神经机器翻译也包含大量的树结构的神经网
络建模
[445, 483]
。此外,也可以把用户定义的词典或者翻译记忆加入到翻译过程
中
[430, 484, 485, 486]
,使得用户的约束可以直接反映到机器翻译的结果上来。先验知
识的种类还有很多,包括词对齐
[481, 487, 488]
、篇章信息
[489, 490, 491]
等等,都是神经机
器翻译中能够使用的信息。