450 Chapter 13. 神经机器翻译模型训练 肖桐 朱靖波
13.4 学习策略
尽管极大似然估计在神经机器翻译中取得了巨大的成功,但仍然面临着许多问
题。比如,似然函数并不是评价翻译系统性能的指标,这使得即使在训练数据上优
化似然函数,但在应用模型时并不一定可以获得更好的翻译结果。本节首先会对极
大似然估计的问题进行论述,然后介绍一些解决相关问题的方法。
13.4.1 极大似然估计的问题
极大似然估计已成为机器翻译乃至整个自然语言处理领域中使用最广泛的训练
用目标函数。但是,使用极大似然估计存在曝光偏置(Exposure Bias)问题和训练目
标函数与任务评价指标不一致问题,具体体现在如下两个方面。
• 曝光偏置问题。在训练过程中,模型使用标注数据进行训练,因此模型在预测
下一个单词时,解码器的输入是正确的译文片段。也就是,预测第 j 个单词时,
系统使用了标准答案 {y
1
,...,y
j−1
}作为历史信息。但是对新的句子进行翻译时,
预测第 j 个单词时使用的是模型自己生成的前 j −1 个单词,即 {ˆy
1
,..., ˆy
j−1
}。
这意味着,训练时使用的输入数据(目标语言端)与真实翻译时的情况不符,如
图13.8所示。由于模型在训练过程中一直使用标注数据作为解码器的输入,使
得模型逐渐适应了标注数据。因此在推断阶段,模型无法很好地适应模型本身
生成的数据,这就是曝光偏置问题
[599, 600]
。
• 训练目标函数与任务评价指标不一致问题。通常,在训练过程中,模型采用极大似
然估计对训练数据进行学习,而在推断过程中,通常使用 BLEU 等外部评价指
标来评价模型的性能。在机器翻译任务中,这个问题的一种体现是,训练数据
上更低的困惑度不一定能带来 BLEU 的提升。更加理想的情况是,模型应该直
接使性能评价指标最大化,而不是训练集数据上的似然函数
[235]
。但是很多模型
性能评价指标不可微分,这使得研究人员无法直接利用基于梯度的方法来优化
这些指标。
13.4.2 非 Teacher-forcing 方法
所谓 Teacher-forcing 方法,即要求模型预测的结果和标准答案完全对应。Teacher-
forcing 是一种深度学习中的训练策略,在序列处理任务上被广泛使用
[571]
。以序列生
成任务为例,Teacher-forcing 要求模型在训练时不是使用上一个时刻的模型输出作为
下一个时刻的输入,而是使用训练数据中上一时刻的标准答案作为下一个时刻的输
入。显然,这会导致曝光偏置问题。为了解决这个问题,可以使用非 Teacher-forcing
方法。比如,在训练中使用束搜索,这样可以让训练过程模拟推断时的行为。具体来
说,非 Teacher-forcing 方法可以用调度采样和生成对抗网络进行实现。