230 Chapter 8. 基于句法的模型 肖桐 朱靖波
进口
在 过去 的 五 到 十 年 间
有了 大幅度 下降
The imports
drastically fell in the past five to ten years
图 8.1 汉英翻译中的不同距离下的依赖
际系统研发中仍然不现实。图8.1展示了一个汉语到英语的翻译实例。源语言的两个
短语(蓝色和红色高亮)在目标语言中产生了调序。但是,这两个短语在源语言句子
中横跨 8 个单词。如果直接使用这 8 个单词构成的短语进行翻译,显然会有非常严
重的数据稀疏问题,因为很难期望在训练数据中见到一模一样的短语。
仅使用连续词串不能处理所有的翻译问题,其根本原因在于句子的表层串很难
描述片段之间大范围的依赖。一个新的思路是使用句子的层次结构信息进行建模。第
三章已经介绍了句法分析基础。对于每个句子,都可以用句法树描述它的结构。
S
VP
ADVP
VBN
fallen
RB
drastically
VBZ
have
NP
NP
this area
IN
in
NP
NN
imports
DT
The
图 8.2 一棵英语句法树(短语结构树)
图8.2就展示了一棵英语句法树(短语结构树)。句法树描述了一种递归的结构,
每个句法结构都可以用一个子树来描述,子树之间的组合可以构成更大的子树,最
终完成整个句子的表示。相比线性的序列结构,树结构更容易处理大片段之间的关
系。比如,两个在序列中距离“很远”的单词,在树结构中可能会“很近”。
句法树结构可以赋予机器翻译对语言进一步抽象的能力,这样,可以不需要使
用连续词串,而是通过句法结构来对大范围的译文生成和调序进行建模。图8.3是一
个在翻译中融入源语言(汉语)句法信息的实例。这个例子中,介词短语“在 ... 后”
包含 11 个单词,因此,使用短语很难涵盖这样的片段。这时,系统会把“在 ... 后”
错误地翻译为“In ...”。通过句法树,可以知道“在 ... 后”对应着一个完整的子树结
构 PP(介词短语)。因此也很容易知道介词短语中“在 ... 后”是一个模板(红色),
而“在”和“后”之间的部分构成从句部分(蓝色)。最终得到正确的译文“After ...”。
使用句法信息在机器翻译中并不新鲜。在基于规则和模板的翻译模型中,就大