3.7 小结及深入阅读 135
3.7 小结及深入阅读
本章对 IBM 系列模型进行了全面的介绍和讨论,从一个简单的基于单词的翻译
模型开始,本章以建模、解码、训练多个维度对统计机器翻译进行了描述,期间也涉
及了词对齐、优化等多个重要概念。IBM 模型共分 5 个模型,对翻译问题的建
依次由浅入深,同时模型复杂度也依次增加。IBM 模型作为入门统计机器翻译的
经之路其思想对今天的机器翻译仍然产生着影响。虽然单独使用 IBM 模型进行机
器翻译现在已经不多见,甚至很多从事神经机器翻译等前沿研究的人对 IBM 模型已
经逐渐淡忘,但是不能否认 IBM 模型标志着一个时代的开始。从某种意义上,当使
用公式
ˆ
t = argmax
t
P(t|s) 描述机器翻译问题的时候,或多或少都在与 IBM 模型使
用相似的思想。
当然,本书也无法涵盖 IBM 模型的所有内涵,很多内容需要感兴趣的读者继续
研究和挖掘,有两个方向可以考虑:
IBM 中,一注。一个
性的成果是 GIZA++https://github.com/moses-smt/giza-pp它集成了
IBM 模型和隐马尔可夫模型,并实现了这些模型的训练。在随后相当长的一段
时间里,GIZA++ 是机器翻译研究的标配,用于获得双语平行数据上单词一
级的对齐结果。此外,研究者也对 IBM 模型进行了大量的分析,为后人研究统
计机器翻译提供了大量依 [222]。虽然 IBM 模型很少被独立使用,甚至直接
用基 IBM 型的解码器也不多见,但是它通常会作为其他型的一部分参
与到对翻译的建模中。这部分工作会在下一章基于短语和句法的模型中进行讨
[153]。此外,IBM 模型也给机器翻译提供了一种非常简便的计算双语词
对应好坏的方式,因此也被广泛用于度量双语词串对应的强度,是自然语言处
理中的一种常用特征。
除了在机器翻译建模上的开创性工作,IBM 模型的另一项重要贡献是建立了统
计词对齐的基础模型。在训练 IBM 模型的过程中,除了学习到模型参数,还可
以得到双语数据上词对齐结果。也就是词对齐标注是 IBM 模型训练的间
接产物。这也使得 IBM 模型成为了自动词对齐的重要方法。包括 GIZA++ 在内
的很多工作,实际上更多的是被用于自动词对齐任务,而非简单的训练 IBM
型参数。随着词对齐概念的不断深入,这个任务逐渐成为了自然语言处理中的
重要分支,比如,对 IBM 模型的结果进行对称化 [221],也可以直接使用判别
式模型利用分类模解决词对齐问 [124],甚至可以把对齐思想用于短语
和句法结构的双语对应 [318]除了 GIZA++研究人员也开发了很多优秀的自
动词对齐工具,比如,FastAlign https://github.com/clab/fast_align
Berkeley Alignerhttps://github.com/mhajiloo/berkeleyaligner等,
些工具现在也有很广泛的应用。