12.9 小结及拓展阅读 429

12.9 小结及拓展阅读

编码器-解码器框架提供了一个非常灵活的机制，因为开发者只需要设计编码器

和解码器的结构就能完成机器翻译。但是，架构的设计是深度学习中最具挑战的工

作，优秀的架构往往需要长时间的探索和大量的实验验证，而且还需要一点点“灵

感”。前面介绍的基于循环神经网络的翻译模型和注意力机制就是研究人员通过长期

的实践发现的神经网络架构。本章介绍了一个全新的模型

——

Transformer，同时对

很多优秀的技术进行了介绍。除了基础知识，关于自注意力机制和模型结构还有很

多值得讨论的地方：

• 近两年，有研究已经发现注意力机制可以捕捉一些语言现象

[541]

，比如，在 Trans-

former 的多头注意力机制中，不同头往往会捕捉到不同的信息，比如，有些头

对低频词更加敏感，有些头更适合词意消歧，甚至有些头可以捕捉句法信息。

此外，由于注意力机制增加了模型的复杂性，而且随着网络层数的增多，神经

机器翻译中也存在大量的冗余，因此研发轻量的注意力模型也是具有实践意义

的方向

[540, 542, 543, 544, 545]

。

• 神经机器翻译依赖成本较高的 GPU 设备，因此对模型的裁剪和加速也是很多

系统研发人员所感兴趣的方向。比如，从工程上，可以考虑减少运算强度，比如

使用低精度浮点数

[546]

或者整数

[539, 547]

进行计算，或者引入缓存机制来加速模型

的推断

[537]

；也可以通过对模型参数矩阵的剪枝来减小整个模型的体积

[548]

；还

可以使用知识蒸馏

[549, 550]

。利用大模型训练小模型，这样往往可以得到比单独训

练小模型更好的效果

[551]

。

• 随着 Transformer 模型受到的关注增多，Transformer 模型的重要组成部分自注

意力网络也受到了研究人员的广泛关注，但它存在很多不足，因此研究人员尝

试设计更高效的操作来改进它。比如，利用动态卷积网络来替换编码器与解码

器的自注意力网络，在保证推断效率的同时取得了和 Transformer 相当甚至略

好的翻译性能

[509]

；为了加速 Transformer 处理较长输入文本的效率，利用局部

敏感哈希替换自注意力机制的 Reformer 模型也吸引了广泛的关注

[545]

。此外，在

自注意力网络引入额外的编码信息能够进一步提高模型的表示能力。比如，引

入固定窗口大小的相对位置编码信息

[462, 552]

, 或利用动态系统的思想从数据中学

习特定的位置编码表示，具有更好的泛化能力

[553]

。通过对 Transformer 模型中

各层输出进行可视化分析，研究人员发现 Transformer 自底向上各层网络依次

聚焦于词级-语法级-语义级的表示

[464, 554]

，因此在底层的自注意力网络中引入局

部编码信息有助于模型对局部特征的抽象

[555, 556]

。

• 除了针对 Transformer 中子层的优化，网络各层之间的连接方式在一定程度上

也能影响模型的表示能力。近年来针对网络连接优化的工作如下：在编码器顶

部利用平均池化或权重累加等融合手段得到编码器各层的全局表示

[557, 558, 559, 560]

，

利用之前各层表示来生成当前层的输入表示

[463, 465, 561]

。