176 Chapter 5. 基于词的机器翻译建模 肖桐 朱靖波
5.6 小结及拓展阅读
本章对 IBM 系列模型中的 IBM 模型 1 进行了详细的介绍和讨论,从一个简单的
基于单词的翻译模型开始,本章从建模、解码、训练多个维度对统计机器翻译进
了描述,期间涉及了词对齐、优化等多个重要概念。IBM 模型共分为 5 个模型,对翻
译问题的建模依次由浅入深,同时模型复杂度也依次增加,我们将在第六章对 IBM
模型 2-5 进行详细的介和讨论。IBM 型作为入统计机器翻译“必经之路”
其思想对今天的机器翻译仍然产生着影响。虽然单独使用 IBM 模型进行机器翻译现
在已经不多见,甚至很多从事神经机器翻译等前沿研究的人对 IBM 模型已经逐渐淡
忘,但是不能否认 IBM 模型标志着一个时代的开始。从某种意义上讲,当使用公式
ˆ
t = arg max
t
P (t|s) 描述机器翻译问题的时候,或多或少都在使用与 IBM 模型相似的
思想。
当然,本书也无法涵盖 IBM 模型的所有内涵,很多内容需要感兴趣的读者继续
研究和挖掘。其中最值得关注的是统计词对齐问题。由于词对齐是 IBM 模型训练的
间接物,因 IBM 型成了自词对的重法。比 IBM 型训装置
GIZA++ 更多的是被用于自动词对齐任务,而非简单的训练 IBM 模型参数
[242]
IBM 基础模型之上,有很多改进的工作。例如,对空对齐、低频词进行额外
处理
[243]
考虑源语言-目标语言和目标语言-源语言双向词对齐进行更好地词对
齐对称化
[244]
;使用词典、命名实体等多种信息对模型进行改
[245]
;通过引
短语增强 IBM 基础模型
[246]
;引入相邻单词对齐之间的依赖关系增加模型健壮
[247]
等;也可以对 IBM 模型的正向和反向结果进行对称化处理,以得到更加
准确词对齐结果
[242]
随着词对齐概念的不断深入,也有很多词对齐方面的工作并不依赖 IBM 模型。
比如,使别模词对
[248]
;使
制的法来确率
[249]
;甚齐的
和句法结构的双语对应
[250]
无监督的对称词对齐方法,正向和反向模型联合训
练,结合数据的相似性
[251]
除了 GIZA++研究人员也开发了很多优秀的自动
对齐工具,比如,FastAlign
[252]
Berkeley Word Aligner
[253]
等,这些工具现在也
有很广泛的应用。
一种较为通用的词对齐评价标准是对齐错误率Alignment Error Rate, AER
[254]
在此基础之上也可以对词对齐评价方法进行改进,以提高对齐质量与机器翻译
评价得 BLEU 的相关
[255, 256, 257]
。也有工作通过统计机器翻译系统性能的提
升来评价对齐质量
[254]
不过,在相当长的时间内,词对齐质量对机器翻译系统
的影响究竟如何并没有统一的结论。有些时候,词对齐的错误率下降了,但是
机器翻译系统的译文品质却没有得到提升。但是,这个问题比较复杂,需要进
一步的论证。不过,可以肯定的是,词对齐可以帮助人们分析机器翻译的行为。
甚至在最新的神经机器翻译中,如何在神经网络模型中寻求两种语言单词之间
5.6 小结及拓展阅读 177
的对应关系也是对模型进行解释的有效手段之一
[258]
基于单词的翻译模型的解码问题也是早期研究者所关注的。比较经典的方法的
是贪婪方法
[79]
也有研究者对不同的解码方法进行了对比
[78]
并给出了一些加
速解码的思路。随后,也有工作进一步对这些方法进行改进
[259, 260]
实际上,
于单词的模型的解码是一个 NP 完全问题
[240]
这也是为什么机器翻译的解码十
分困难的原因。关于翻译模型解码算法的时间复杂度也有很多讨论
[261, 262, 263]