3.7 小结及深入阅读 135

3.7 小结及深入阅读

本章对 IBM 系列模型进行了全面的介绍和讨论，从一个简单的基于单词的翻译

模型开始，本章以建模、解码、训练多个维度对统计机器翻译进行了描述，期间也涉

及了词对齐、优化等多个重要概念。IBM 模型共分为 5 个模型，对翻译问题的建模

依次由浅入深，同时模型复杂度也依次增加。IBM 模型作为入门统计机器翻译的 “必

经之路”，其思想对今天的机器翻译仍然产生着影响。虽然单独使用 IBM 模型进行机

器翻译现在已经不多见，甚至很多从事神经机器翻译等前沿研究的人对 IBM 模型已

经逐渐淡忘，但是不能否认 IBM 模型标志着一个时代的开始。从某种意义上，当使

用公式

t = argmax

P(t|s) 描述机器翻译问题的时候，或多或少都在与 IBM 模型使

用相似的思想。

当然，本书也无法涵盖 IBM 模型的所有内涵，很多内容需要感兴趣的读者继续

研究和挖掘，有两个方向可以考虑：

• IBM 模型在提出后的十余年中，一直受到了学术界的关注。一个比较有代表

性的成果是 GIZA++（https://github.com/moses-smt/giza-pp），它集成了

IBM 模型和隐马尔可夫模型，并实现了这些模型的训练。在随后相当长的一段

时间里，GIZA++ 也是机器翻译研究的标配，用于获得双语平行数据上单词一

级的对齐结果。此外，研究者也对 IBM 模型进行了大量的分析，为后人研究统

计机器翻译提供了大量依据 [222]。虽然 IBM 模型很少被独立使用，甚至直接

用基于 IBM 模型的解码器也不多见，但是它通常会作为其他模型的一部分参

与到对翻译的建模中。这部分工作会在下一章基于短语和句法的模型中进行讨

论 [153]。此外，IBM 模型也给机器翻译提供了一种非常简便的计算双语词串

对应好坏的方式，因此也被广泛用于度量双语词串对应的强度，是自然语言处

理中的一种常用特征。

• 除了在机器翻译建模上的开创性工作，IBM 模型的另一项重要贡献是建立了统

计词对齐的基础模型。在训练 IBM 模型的过程中，除了学习到模型参数，还可

以得到双语数据上的词对齐结果。也就是说词对齐标注是 IBM 模型训练的间

接产物。这也使得 IBM 模型成为了自动词对齐的重要方法。包括 GIZA++ 在内

的很多工作，实际上更多的是被用于自动词对齐任务，而非简单的训练 IBM 模

型参数。随着词对齐概念的不断深入，这个任务逐渐成为了自然语言处理中的

重要分支，比如，对 IBM 模型的结果进行对称化 [221]，也可以直接使用判别

式模型利用分类模型解决词对齐问题 [124]，甚至可以把对齐的思想用于短语

和句法结构的双语对应 [318]。除了 GIZA++，研究人员也开发了很多优秀的自

动词对齐工具，比如，FastAlign （https://github.com/clab/fast_align）、

Berkeley Aligner（https://github.com/mhajiloo/berkeleyaligner）等，这

些工具现在也有很广泛的应用。