544 Chapter 15. 神经机器翻译结构优化 肖桐 朱靖波
15.5 小结及拓展阅读
模型结构优化一直是机器翻译研究的重要方向。一方面,对于通用框架(如
意力机制)的结构改良可以服务于多种自然语言处理任务,另一方面,针对机器
译中存在的问题设计相适应的模型结构也是极具价值的。本章节重点介绍了神经
器翻译中几种结构优化方法,内容涉及注意力机制的改进、深层神经网络的构建、
法结构的使用以及自动结构搜索等几个方面。此外,还有若干问题值得关注:
多头注意力是近些年神经机器翻译中常用的结构。多头机制可以让模型从更多
提取征,想。 Transformer
编码器的多头机制进行了分析,发现部分头在神经网络的学习过程中扮演了至
关重色,并且学解
[541]
。而头本备很
解释,对模型的帮助也不大,因此可以被剪枝掉。而且也有研究人员发现,
Transformer 模型中并不是头数越多模型的性能就越强。如果在训练过程中使用
多头机制,并在推断过程中去除大部分头,可以在模型性能不变的前提下提高
模型在 CPU 上的执行效率
[726]
此外,也可以利用正则化手段,在训练过程中增大不同头之间的差异
[873]
或引
入多尺度的思想, 对输入的特征进行分级表示,并引入短语的信息
[874]
。还可以
通过对注意力权重进行调整,来区分序列中的实词与虚词
[875]
除了上述基于编
码器-码器建模式,还可定义量模捕获子中的语
义信息
[766, 876]
,或直接对源语言和目标语言序列进行联合表示
[466]
Transformer 模型说,处理超长序列是为困难的。一种比较接的
决办法是优化自注意力机制,降低模型计算复杂度。例如,采用了基于滑动窗
口的局部注意力的 Longformer 模型
[811]
基于随机特征的 Performer
[729]
使用低
秩分解的 Linformer
[813]
和应用星型拓扑排序的 Star-Transformer
[877]