210 Chapter 7. 基于短语的模型 肖桐 朱靖波
多对一,甚至多对多的情况。为了获得对称的词对齐,一种简单的方法是,分别进行
正向翻译和反向翻译的词对齐,然后利用启发性方法生成对称的词对齐,例如,双
向词对齐取交集、并集等。
如图7.13中,左边两个图就是正向和反向两种词对齐的结果。右边的图是融合双
向词对齐的结果,取交集是蓝色的方框,取并集是红色的方框。当然,还可以设计更
多的启发性规则生成词对齐
[275]
。
t
1
t
2
t
3
t
4
s
1
s
2
s
3
s
4
t
1
t
2
t
3
t
4
s
1
s
2
s
3
s
4
t
1
t
2
t
3
t
4
s
1
s
2
s
3
s
4
s - t t - s
交集/并集
图 7.13 词对齐的获取
除此之外,一些外部工具也可以用来获取词对齐,如 Fastalign
[252]
、Berkeley Word
Aligner
[253]
等。词对齐的质量通常使用词对齐错误率(AER)来评价
[276]
,但是词对齐
并不是一个独立的系统,它一般会服务于其他任务。因此,也可以使用下游任务来
评价词对齐的好坏。比如,改进词对齐后观察机器翻译系统性能的变化。
7.3.3 度量双语短语质量
抽取双语短语之后,需要对每个双语短语的质量进行评价。这样,在使用这些
双语短语时,可以更有效地估计整个句子翻译的好坏。在统计机器翻译中,一般用
双语短语出现的可能性大小来度量双语短语的好坏。这里,使用相对频次估计对短
语的翻译条件概率进行计算,公式如下:
P (
¯
t|¯s) =
c(¯s,
¯
t)
c(¯s)
(7.13)
给定一个双语句对 (s, t),c(¯s) 表示短语 ¯s 在 s 中出现的次数,c(¯s,
¯
t) 表示双语
短语 (¯s,
¯
t) 在 (s, t) 中被抽取出来的次数。对于一个包含多个句子的语料库,c(¯s) 和
c(¯s,
¯
t) 可以按句子进行累加。类似的,也可以用同样的方法,计算
¯
t 到 ¯s 的翻译概率,
即 P (¯s|
¯
t)。一般会同时使用 P (
¯
t|¯s) 和 P (¯s|
¯
t) 度量一个双语短语的好与坏。
当遇到低频短语时,短语翻译概率的估计可能会不准确。例如,短语 ¯s 和
¯
t 在语
料中只出现了一次,且在一个句子中共现,那么 ¯s 到
¯
t 的翻译概率为 P (
¯
t|¯s) = 1,这
显然是不合理的,因为 ¯s 和
¯
t 的出现完全可能是偶然事件。既然直接度量双语短语的
好坏会面临数据稀疏问题,一个自然的想法就是把短语拆解成单词,利用双语短语
中单词翻译的好坏间接度量双语短语的好坏。为了达到这个目的,可以使用词汇化翻
译概率(Lexical Translation Probability)。前面借助词对齐信息完成了双语短语的抽