226 Chapter 7. 基于短语的模型 肖桐 朱靖波
7.8 小结及拓展阅读
统计机器翻译模型是近三十年内自然语言处理的重要里程碑之一。其统计建
的思想长期影响着自然语言处理的研究。无论是前面介绍的基于单词的模型,还
本章介绍的基于短语的模型,甚至后面即将介绍的基于句法的模型,大家都在尝
回答:究竟应该用什么样的知识对机器翻译进行统计建模?不过,这个问题至今
没有确定的答案。但是,显而易见,统计机器翻译为机器翻译的研究提供了一种
式,即让计算机用概率化的“知识”描述翻译问题。这些“知识”体现在统计模型的
结构和参数中,并且可以从大量的双语和单语数据中自动学习。这种建模思想在
天的机器翻译研究中仍然随处可见。
本章对统计机器翻译中的基于短语的型进行了介绍。可以说,基于短语的
型是机器翻译中最成功的机器翻译模型之一。其结构简单,而且翻译速度快,因此也
被大量应用于机器翻译产品及服务中。此外,包括判别模型、最小错误率训练、短语
抽取等经典问题都是源自基于短语的模型。可是,基于短语的模型所涉及的非常
富,很难通过一章的内容进行面面俱到的介绍。还有很多方向值得读者进一步了解:
基于短语的机器翻译的想法很早就出现了,比如直接对把机器翻译看作基于短
语的生成
[269, 281, 282]
,或者单对短翻译行建模,之后成到于单
的模型中
[283, 284, 285]
。现在,最通用的框架是 Koehn 等人提出的模型
[286]
,与其类
似的还有 Zens 等人的工作
[287, 288]
。这类模型把短语翻译分解为短语学习问题和
解码问题。因此,在随后相当长一段时间里,如何获取双语短语也是机器翻译
领域的热点。比如,一些团队研究如何直接从双语句对中学习短语翻译,而不
是通单的性规行短
[289, 290]
。也究者语边建模
进行研究,以获得更高质量的短语,同时减小模型大小
[291, 292, 293]
一。
型,这类模型把调序定义为短语之间的相对位置建模问题
[270, 294, 295]
后来,也有
一些工作使用判别模型来集成更多的调序特征
[268, 296, 297, 298]
。实际上,除了基于
短语的模型,调序也在基于句法的模型中被广泛讨论。因此,一些工作尝试将
基于短语的调序模型集成到基于句法的机器翻译系
[268, 299, 300, 301]
。此外,也
有研究者对不同的调序模型进行了系统化的对比和分析,可以作为相关研究的
参考
[302]
与在机器翻译系统中集成调序模型不同,预调序Pre-ordering也是
一种解决调序问题的思
[303, 304, 305, 306]
。机器翻译中的预调序是指将输入的源语
言句子按目标语言的顺序进行排列,这样在翻译中就尽可能减少调序操作。
种方法大多依赖源语言的句法树进行调序的建模,不过它与机器翻译系统的耦
合很小,因此很容易进行系统集成。
使 Tillmann 等人
[77]
Pharaoh
[81]
Moses
[80]
等开源系统中被成功的应用,在机器翻译领域产生了很大
的影响力。特别是,这种解码方法效率很高,因此在许多工业系统里也大量使
7.8 小结及拓展阅读 227
用。对于栈解码也有很多改进工作,比如,早期的工作考虑剪枝或者限制调序
范围以加快解码速度
[76, 307, 308, 309]
随后,也有研究工作从解码算法和语言模型集
成方式的角度对这类方法进行改进
[310, 311, 312]
统计机器翻译的成功很大程度上来自判别模型引入任意特征的能力。因此,
统计机器翻译时代,很多工作都集中在新特征的设计上。比如,可以基于不同的
统计特征先验识设计翻特征
[313, 314, 315]
,也可以仿分任务设计规模
的稀疏特征
[279]
模型训练和特征权重调优也是统计机器翻译中的重要问题,
了最小错误率训练,还有很多方法,比如,最大似然估计
[10, 286]
判别式方法
[316]
贝叶斯方法
[317, 318]
、最小风险训练
[319, 320]
、基于 Margin 的方法
[314, 321]
以及基于排
序模型的方法PRO
[280, 322]
实际上,统计机器翻译的训练和解码也存在不一
致的问题,比如,特征值由双语数据上的极大似然估计得到(没有剪枝),而
解码时却使用束剪枝,而且模型的目标是最大化机器翻译评价指标。对于这个
问题也可以通过调整训练的目标函数进行缓解
[323, 324]
块。是,
语。
[312, 325, 326, 327]
。另一方面,随着数据量的增和抽取短语长度的增大,语表
胀,耗,
降。题,
缩。一路是语的
[328, 329]
;另广泛使思路使用一
标或语进枝,是判
[330]
,并
过滤语。法有:
[331]
、基
剪枝
[332]
两阶段短语抽取方法
[333]
基于解码中短语使用频率的方法
[334]
等。
外,短语表的存储方式也是在实际使用中需要考虑的问题。因此,也有研究者
尝试使用更加紧凑、高效的结构保存短语表。其中最具代表性的结构是后缀数
组(Suffix Arrays这种结构可以充分利用短语之间有重叠的性质,减少了重
复存储
[335, 336, 337]