
3.7 小结及深入阅读 135
3.7 小结及深入阅读
本章对 IBM 系列模型进行了全面的介绍和讨论,从一个简单的基于单词的翻译
模型开始,本章以建模、解码、训练多个维度对统计机器翻译进行了描述,期间也涉
及了词对齐、优化等多个重要概念。IBM 模型共分为 5 个模型,对翻译问题的建模
依次由浅入深,同时模型复杂度也依次增加。IBM 模型作为入门统计机器翻译的 “必
经之路”,其思想对今天的机器翻译仍然产生着影响。虽然单独使用 IBM 模型进行机
器翻译现在已经不多见,甚至很多从事神经机器翻译等前沿研究的人对 IBM 模型已
经逐渐淡忘,但是不能否认 IBM 模型标志着一个时代的开始。从某种意义上,当使
用公式
ˆ
t = argmax
t
P(t|s) 描述机器翻译问题的时候,或多或少都在与 IBM 模型使
用相似的思想。
当然,本书也无法涵盖 IBM 模型的所有内涵,很多内容需要感兴趣的读者继续
研究和挖掘,有两个方向可以考虑:
• IBM 模型在提出后的十余年中,一直受到了学术界的关注。一个比较有代表
性的成果是 GIZA++(https://github.com/moses-smt/giza-pp),它集成了
IBM 模型和隐马尔可夫模型,并实现了这些模型的训练。在随后相当长的一段
时间里,GIZA++ 也是机器翻译研究的标配,用于获得双语平行数据上单词一
级的对齐结果。此外,研究者也对 IBM 模型进行了大量的分析,为后人研究统
计机器翻译提供了大量依据 [222]。虽然 IBM 模型很少被独立使用,甚至直接
用基于 IBM 模型的解码器也不多见,但是它通常会作为其他模型的一部分参
与到对翻译的建模中。这部分工作会在下一章基于短语和句法的模型中进行讨
论 [153]。此外,IBM 模型也给机器翻译提供了一种非常简便的计算双语词串
对应好坏的方式,因此也被广泛用于度量双语词串对应的强度,是自然语言处
理中的一种常用特征。
• 除了在机器翻译建模上的开创性工作,IBM 模型的另一项重要贡献是建立了统
计词对齐的基础模型。在训练 IBM 模型的过程中,除了学习到模型参数,还可
以得到双语数据上的词对齐结果。也就是说词对齐标注是 IBM 模型训练的间
接产物。这也使得 IBM 模型成为了自动词对齐的重要方法。包括 GIZA++ 在内
的很多工作,实际上更多的是被用于自动词对齐任务,而非简单的训练 IBM 模
型参数。随着词对齐概念的不断深入,这个任务逐渐成为了自然语言处理中的
重要分支,比如,对 IBM 模型的结果进行对称化 [221],也可以直接使用判别
式模型利用分类模型解决词对齐问题 [124],甚至可以把对齐的思想用于短语
和句法结构的双语对应 [318]。除了 GIZA++,研究人员也开发了很多优秀的自
动词对齐工具,比如,FastAlign (https://github.com/clab/fast_align)、
Berkeley Aligner(https://github.com/mhajiloo/berkeleyaligner)等,这
些工具现在也有很广泛的应用。