13.7 小结及拓展阅读 469
13.7 小结及拓展阅读
本章以不同的角度讨论了神经机器翻译模型的训练问题。一方面,可以作为第
九章 第十二章内容的扩展,另一方面,也为本书后续章节的内容进行铺垫。从机
器学习的角度看,本章介绍的很多内容并不仅仅使用在机器翻译中,大多数的内容
同样适用于其它自然语言处理任务。此外,本章也讨论了许多与机器翻译相关的问
(如大词表)这又使得本章的内容具有机器翻译的特性。总的来说,模型训练是
一个非常开放的问题,在后续章节中还会频繁涉及。同时,也有一些方向可以关注:
对抗样本除了用于提高模型的健壮性之外,还有很多其他的应用场景,比如评
估模型。通过构建由对抗样本构造的数据集,可以验证模型对于不同类型噪声
的健壮性
[660]
但是在生成对抗样本时常常要考虑很多问题,比如扰动是否足够
细微
[575, 577]
在人类难以察觉的同时做到欺骗模型的目的;对抗样本在不同的模
型结或数上是有足的泛
[661, 662]
;生的方否足
等等
[580, 663]
此外,在机器翻译中,强化学习的应用也有很多,比如,MIXER 算法用混合策
略梯度和极大似然估计的目标函数来更新模型
[600]
DAgger
[664]
以及 DAD
[665]
算法在训练过程之中逐渐让模型适应推断阶段的模式。此外,强化学习的效果
目前还相当不稳定,研究人员提出了大量的方法来进行改善,比如降低对动作
价值函数 Q 的估计的方差
[603, 666]
、使用单语语料
[667, 668]
等等。
从广义上说,大多数课程学习方法都是遵循由易到难的原则,然而在实践过程
中人们逐渐赋予了课程学习更多的内涵,课程学习的含义早已超越了最原始的
定义。一方面,课程学习可以与许多任务相结合,此时,评估准则并不一定总
是样本的困难度,这取决于具体的任务。或者说,我们更关心的是样本带给模
型的“价值”而非简单的难易标准。另一方面,在一些任务或数据中,由易到
难并不总是有效,有时困难优先反而会取得更好的效果
[652, 669]
实际上这和人类
的直觉不太符合,一种合理的解释是课程学习更适合标签噪声、离群值较多或
者是目标任务困难的场景,该方法能够提高模型的健壮性和收敛速度,而困难
优先的策略则更适合数据集干净的场景
[670]