226 Chapter 7. 基于短语的模型 肖桐 朱靖波
7.8 小结及拓展阅读
统计机器翻译模型是近三十年内自然语言处理的重要里程碑之一。其统计建模
的思想长期影响着自然语言处理的研究。无论是前面介绍的基于单词的模型,还是
本章介绍的基于短语的模型,甚至后面即将介绍的基于句法的模型,大家都在尝试
回答:究竟应该用什么样的知识对机器翻译进行统计建模?不过,这个问题至今还
没有确定的答案。但是,显而易见,统计机器翻译为机器翻译的研究提供了一种范
式,即让计算机用概率化的“知识”描述翻译问题。这些“知识”体现在统计模型的
结构和参数中,并且可以从大量的双语和单语数据中自动学习。这种建模思想在今
天的机器翻译研究中仍然随处可见。
本章对统计机器翻译中的基于短语的模型进行了介绍。可以说,基于短语的模
型是机器翻译中最成功的机器翻译模型之一。其结构简单,而且翻译速度快,因此也
被大量应用于机器翻译产品及服务中。此外,包括判别模型、最小错误率训练、短语
抽取等经典问题都是源自基于短语的模型。可是,基于短语的模型所涉及的非常丰
富,很难通过一章的内容进行面面俱到的介绍。还有很多方向值得读者进一步了解:
• 基于短语的机器翻译的想法很早就出现了,比如直接对把机器翻译看作基于短
语的生成问题
[269, 281, 282]
,或者单独对短语翻译进行建模,之后集成到基于单词
的模型中
[283, 284, 285]
。现在,最通用的框架是 Koehn 等人提出的模型
[286]
,与其类
似的还有 Zens 等人的工作
[287, 288]
。这类模型把短语翻译分解为短语学习问题和
解码问题。因此,在随后相当长一段时间里,如何获取双语短语也是机器翻译
领域的热点。比如,一些团队研究如何直接从双语句对中学习短语翻译,而不
是通过简单的启发性规则进行短语抽取
[289, 290]
。也有研究者对短语边界的建模
进行研究,以获得更高质量的短语,同时减小模型大小
[291, 292, 293]
。
• 调序是基于短语的模型中经典的问题之一。早期的模型都是单词化的调序模
型,这类模型把调序定义为短语之间的相对位置建模问题
[270, 294, 295]
。后来,也有
一些工作使用判别模型来集成更多的调序特征
[268, 296, 297, 298]
。实际上,除了基于
短语的模型,调序也在基于句法的模型中被广泛讨论。因此,一些工作尝试将
基于短语的调序模型集成到基于句法的机器翻译系统中
[268, 299, 300, 301]
。此外,也
有研究者对不同的调序模型进行了系统化的对比和分析,可以作为相关研究的
参考
[302]
。与在机器翻译系统中集成调序模型不同,预调序(Pre-ordering)也是
一种解决调序问题的思路
[303, 304, 305, 306]
。机器翻译中的预调序是指将输入的源语
言句子按目标语言的顺序进行排列,这样在翻译中就尽可能减少调序操作。这
种方法大多依赖源语言的句法树进行调序的建模,不过它与机器翻译系统的耦
合很小,因此很容易进行系统集成。
• 统计机器翻译中使用的栈解码方法源自 Tillmann 等人的工作
[77]
。这种方法在
Pharaoh
[81]
、Moses
[80]
等开源系统中被成功的应用,在机器翻译领域产生了很大
的影响力。特别是,这种解码方法效率很高,因此在许多工业系统里也大量使