544 Chapter 15. 神经机器翻译结构优化 肖桐 朱靖波
15.5 小结及拓展阅读
模型结构优化一直是机器翻译研究的重要方向。一方面,对于通用框架(如注
意力机制)的结构改良可以服务于多种自然语言处理任务,另一方面,针对机器翻
译中存在的问题设计相适应的模型结构也是极具价值的。本章节重点介绍了神经机
器翻译中几种结构优化方法,内容涉及注意力机制的改进、深层神经网络的构建、句
法结构的使用以及自动结构搜索等几个方面。此外,还有若干问题值得关注:
• 多头注意力是近些年神经机器翻译中常用的结构。多头机制可以让模型从更多
维度提取特征,也反应了一种多分支建模的思想。研究人员针对 Transformer
编码器的多头机制进行了分析,发现部分头在神经网络的学习过程中扮演了至
关重要的角色,并且蕴含语言学解释
[541]
。而另一部分头本身则不具备很好的
解释,对模型的帮助也不大,因此可以被剪枝掉。而且也有研究人员发现,在
Transformer 模型中并不是头数越多模型的性能就越强。如果在训练过程中使用
多头机制,并在推断过程中去除大部分头,可以在模型性能不变的前提下提高
模型在 CPU 上的执行效率
[726]
。
• 此外,也可以利用正则化手段,在训练过程中增大不同头之间的差异
[873]
。或引
入多尺度的思想, 对输入的特征进行分级表示,并引入短语的信息
[874]
。还可以
通过对注意力权重进行调整,来区分序列中的实词与虚词
[875]
。除了上述基于编
码器端-解码器端的建模范式,还可以定义隐变量模型来捕获句子中潜在的语
义信息
[766, 876]
,或直接对源语言和目标语言序列进行联合表示
[466]
。
• 对 Transformer 等模型来说,处理超长序列是较为困难的。一种比较直接的解
决办法是优化自注意力机制,降低模型计算复杂度。例如,采用了基于滑动窗
口的局部注意力的 Longformer 模型
[811]
、基于随机特征的 Performer
[729]
、使用低
秩分解的 Linformer
[813]
和应用星型拓扑排序的 Star-Transformer
[877]
。