180 Chapter 6. 基于扭曲度和繁衍率的模型 肖桐 朱靖波
6.1.1 什么是扭曲度
调序(Reordering)是自然语言翻译中特有的语言现象。造成这个现象的主要原
因在于不同语言之间语序的差异,比如,汉语是“主谓宾”结构,而日语是“主宾
谓”结构。即使在句子整体结构相似的语言上进行翻译,调序也是频繁出现的现象。
如图6.1所示,当一个主动语态的汉语句子翻译为一个被动语态的英语句子时,如果
直接顺序翻译,那么翻译结果“I with you am satisfied”很明显不符合英语语法。这
里就需要采取一些方法和手段在翻译过程中对词或短语进行调序,从而得到正确的
翻译结果。
源语
我
对
你
感到
满意
顺序翻译
I
with
you
am
satisfied
(a) 顺序翻译对齐结果
源语
我
对
你
感到
满意
调序翻译
I
am
satisfied with
you
(b) 调序翻译对齐结果
图 6.1 顺序翻译和调序翻译的实例对比
在对调序问题进行建模的方法中,最基本的是使用调序距离方法。这里,可以
假设完全进行顺序翻译时,调序的“代价”是最低的。当调序出现时,可以用调序相
对于顺序翻译产生的位置偏移来度量调序的程度,也被称为调序距离。图6.2展示了
翻译时两种语言中词的对齐矩阵。比如,在图6.2(a) 中,系统需要跳过“对”和“你”
来翻译“感到”和“满意”,之后再回过头翻译“对”和“你”,这样就完成了对单词
的调序。这时可以简单地把需要跳过的单词数看作一种距离。
可以看到,调序距离实际上是在度量目标语言词序相对于源语言词序的一种扭
曲程度。因此,也常常把这种调序距离称作扭曲度(Distortion)。调序距离越大对应
的扭曲度也越大。比如,可以明显看出图6.2(b) 中调序的扭曲度要比图6.2(a) 中调序
的扭曲度大,因此6.2(b) 实例的调序代价也更大。
在机器翻译中使用扭曲度进行翻译建模是一种十分自然的想法。接下来,会介
绍两个基于扭曲度的翻译模型,分别是 IBM 模型 2 和隐马尔可夫模型。不同于 IBM