216 Chapter 7. 基于短语的模型 肖桐 朱靖波
7.5 翻译特征
基于短语的模型使用判别模型对翻译推导进行建模,给定双语句对 (s,t),每
个翻译推导 d 都有一个模型得分,由 M 个特征线性加权得到,记为 score(d,t,s) =
P
M
i=1
λ
i
·h
i
(d,t,s),其中 λ
i
表示特征权重,h
i
(d,t,s) 表示特征函数(简记为 h
i
(d))。
这些特征包含刚刚介绍过的短语翻译概率、调序模型得分等,除此之外,还包含语
言模型等其他特征,它们共同组成了特征集合。这里列出了基于短语的模型中的一
些基础特征:
• 短语翻译概率(取对数),包含正向翻译概率 log(P (
¯
t|¯s)) 和反向翻译概率 log(P ( ¯s
|
¯
t)),它们是基于短语的模型中最主要的特征。
• 单词化翻译概率(取对数),同样包含正向单词化翻译概率 log(P
lex
(
¯
t|¯s)) 和反
向单词化翻译概率 log(P
lex
(¯s|
¯
t)),它们用来描述双语短语中单词间对应的好坏。
• n-gram 语言模型,用来度量译文的流畅程度,可以通过大规模目标端单语数据
得到。
• 译文长度,避免模型倾向于短译文,同时让系统自动学习对译文长度的偏好。
• 翻译规则数量,为了避免模型仅使用少量特征构成翻译推导(规则数量少,短
语翻译概率相乘的因子也会少,得分一般会大一些),同时让系统自动学习对
规则数量的偏好。
• 被翻译为空的源语言单词数量。注意,空翻译特征有时也被称作有害特征(Evil
Feature),这类特征在一些数据上对 BLEU 有很好的提升作用,但会造成人工
评价结果的下降,需要谨慎使用。
• 基于 MSD 的调序模型,包括与前一个短语的调序模型 f
M-pre
(d) 、f
S-pre
(d) 、
f
D-pre
(d) 和与后一个短语的调序模型 f
M-fol
(d) 、f
S-fol
(d) 、f
D-fol
(d),共 6 个特
征。