276 Chapter 8. 基于句法的模型 肖桐 朱靖波
8.4 小结及拓展阅读
自基于规则的方法开始,如何使用句法信息就是机器翻译研究人员关注的热点。
在统计机器翻译时代,句法信息与机器翻译的结合成为了最具时代特色的研究方向
之一。句法结构具有高度的抽象性,因此可以缓解基于词串方法不善于处理句子上
层结构的问题。
本章对基于句法的机器翻译模型进行了介绍,并重点讨论了相关的建模、翻译
规则抽取以及解码问题。从某种意义上说,基于句法的模型与基于短语的模型都同
属一类模型,因为二者都假设:两种语言间存在由短语或者规则构成的翻译推导,而
机器翻译的目标就是找到最优的翻译推导。但是,由于句法信息有其独特的性质,因
此也给机器翻译带来了新的问题。有几方面问题值得关注:
• 从建模的角度看,早期的统计机器翻译模型已经涉及到了树结构的表示问题
[283, 363]
。
不过,基于句法的翻译模型的真正崛起是在同步文法提出之后。初期的工作大
多集中在反向转录文法和括号转录文法方面
[343, 364, 365]
,这类方法也被用于短语获
取
[366, 367]
。进一步,研究者提出了更加通用的层次模型来描述翻译过程
[88, 368, 369]
,本
章介绍的层次短语模型就是其中典型的代表。之后,使用语言学句法的模型也
逐渐兴起。最具代表性的是在单语言端使用语言学句法信息的模型
[86, 87, 348, 370, 371, 372, 373]
,
即:树到串翻译模型和串到树翻译模型。值得注意的是,除了直接用句法信息定
义翻译规则,也有研究者将句法信息作为软约束改进层次短语模型
[374, 375]
。这类
方法具有很大的灵活性,既保留了层次短语模型比较健壮的特点,同时也兼顾
了语言学句法对翻译的指导作用。在同一时期,也有研究者提出同时使用双语
两端的语言学句法树对翻译进行建模,比较有代表性的工作是使用同步树插入
文法(Synchronous Tree-Insertion Grammars)和同步树替换文法(Synchronous
Tree-Substitution Grammars)进行树到树翻译的建模
[354, 376, 377]
。不过,树到树翻
译假设两种语言间的句法结构能够相互转换,而这个假设并不总是成立。因此
树到树翻译系统往往要配合一些技术,如树二叉化,来提升系统的健壮性。
• 在基于句法的模型中,常常会使用句法分析器完成句法分析树的生成。由于句
法分析器会产生错误,因此这些错误会对机器翻译系统产生影响。对于这个问
题,一种解决办法是同时考虑更多的句法树,从而增加正确句法分析结果被使
用到的概率。其中,比较典型的方式基于句法森林的方法
[378, 379]
,比如,在规
则抽取或者解码阶段使用句法森林,而不是仅仅使用一棵单独的句法树。另一
种思路是,对句法结构进行松弛操作,即在翻译的过程中并不严格遵循句法结
构
[362, 380]
。实际上,前面提到的基于句法软约束的模型也是这类方法的一种体
现
[374, 375]
。事实上,机器翻译领域长期存在一个问题:使用什么样的句法结构最
适合机器翻译?因此,有研究者尝试对比不同的句法分析结果对机器翻译系统
的影响
[381, 382]
。也有研究者面向机器翻译任务自动归纳句法结构
[383]
,而不是直
接使用从单语小规模树库学习到的句法分析器,这样可以提高系统的健壮性。