176 Chapter 5. 基于词的机器翻译建模肖桐朱靖波

5.6 小结及拓展阅读

本章对 IBM 系列模型中的 IBM 模型 1 进行了详细的介绍和讨论，从一个简单的

基于单词的翻译模型开始，本章从建模、解码、训练多个维度对统计机器翻译进行

了描述，期间涉及了词对齐、优化等多个重要概念。IBM 模型共分为 5 个模型，对翻

译问题的建模依次由浅入深，同时模型复杂度也依次增加，我们将在第六章对 IBM

模型 2-5 进行详细的介绍和讨论。IBM 模型作为入门统计机器翻译的“必经之路”，

其思想对今天的机器翻译仍然产生着影响。虽然单独使用 IBM 模型进行机器翻译现

在已经不多见，甚至很多从事神经机器翻译等前沿研究的人对 IBM 模型已经逐渐淡

忘，但是不能否认 IBM 模型标志着一个时代的开始。从某种意义上讲，当使用公式

ˆ

t = arg max

t

P (t|s) 描述机器翻译问题的时候，或多或少都在使用与 IBM 模型相似的

思想。

当然，本书也无法涵盖 IBM 模型的所有内涵，很多内容需要感兴趣的读者继续

研究和挖掘。其中最值得关注的是统计词对齐问题。由于词对齐是 IBM 模型训练的

间接产物，因此 IBM 模型成为了自动词对齐的重要方法。比如 IBM 模型训练装置

GIZA++ 更多的是被用于自动词对齐任务，而非简单的训练 IBM 模型参数

[242]

。

• 在 IBM 基础模型之上，有很多改进的工作。例如，对空对齐、低频词进行额外

处理

[243]

；考虑源语言-目标语言和目标语言-源语言双向词对齐进行更好地词对

齐对称化

[244]

；使用词典、命名实体等多种信息对模型进行改进

[245]

；通过引入

短语增强 IBM 基础模型

[246]

；引入相邻单词对齐之间的依赖关系增加模型健壮

性

[247]

等；也可以对 IBM 模型的正向和反向结果进行对称化处理，以得到更加

准确词对齐结果

[242]

。

• 随着词对齐概念的不断深入，也有很多词对齐方面的工作并不依赖 IBM 模型。

比如，可以直接使用判别模型利用分类器解决词对齐问题

[248]

；使用带参数控

制的动态规划方法来提高词对齐准确率

[249]

；甚至可以把对齐的思想用于短语

和句法结构的双语对应

[250]

；无监督的对称词对齐方法，正向和反向模型联合训

练，结合数据的相似性

[251]

；除了 GIZA++，研究人员也开发了很多优秀的自动

对齐工具，比如，FastAlign

[252]

、Berkeley Word Aligner

[253]

等，这些工具现在也

有很广泛的应用。

• 一种较为通用的词对齐评价标准是对齐错误率（Alignment Error Rate, AER）

[254]

。

在此基础之上也可以对词对齐评价方法进行改进，以提高对齐质量与机器翻译

评价得分 BLEU 的相关性

[255, 256, 257]

。也有工作通过统计机器翻译系统性能的提

升来评价对齐质量

[254]

。不过，在相当长的时间内，词对齐质量对机器翻译系统

的影响究竟如何并没有统一的结论。有些时候，词对齐的错误率下降了，但是

机器翻译系统的译文品质却没有得到提升。但是，这个问题比较复杂，需要进

一步的论证。不过，可以肯定的是，词对齐可以帮助人们分析机器翻译的行为。

甚至在最新的神经机器翻译中，如何在神经网络模型中寻求两种语言单词之间

5.6 小结及拓展阅读 177

的对应关系也是对模型进行解释的有效手段之一

[258]

。

• 基于单词的翻译模型的解码问题也是早期研究者所关注的。比较经典的方法的

是贪婪方法

[79]

。也有研究者对不同的解码方法进行了对比

[78]

，并给出了一些加

速解码的思路。随后，也有工作进一步对这些方法进行改进

[259, 260]

。实际上，基

于单词的模型的解码是一个 NP 完全问题

[240]

，这也是为什么机器翻译的解码十

分困难的原因。关于翻译模型解码算法的时间复杂度也有很多讨论

[261, 262, 263]

。