216 Chapter 7. 基于短语的模型肖桐朱靖波

7.5 翻译特征

基于短语的模型使用判别模型对翻译推导进行建模，给定双语句对 (s,t)，每

个翻译推导 d 都有一个模型得分，由 M 个特征线性加权得到，记为 score(d,t,s) =

P

M

i=1

λ

i

·h

i

(d,t,s)，其中 λ

i

表示特征权重，h

i

(d,t,s) 表示特征函数（简记为 h

i

(d)）。

这些特征包含刚刚介绍过的短语翻译概率、调序模型得分等，除此之外，还包含语

言模型等其他特征，它们共同组成了特征集合。这里列出了基于短语的模型中的一

些基础特征：

• 短语翻译概率（取对数），包含正向翻译概率 log(P (

¯

t|¯s)) 和反向翻译概率 log(P ( ¯s

|

¯

t))，它们是基于短语的模型中最主要的特征。

• 单词化翻译概率（取对数），同样包含正向单词化翻译概率 log(P

lex

(

¯

t|¯s)) 和反

向单词化翻译概率 log(P

lex

(¯s|

¯

t))，它们用来描述双语短语中单词间对应的好坏。

• n-gram 语言模型，用来度量译文的流畅程度，可以通过大规模目标端单语数据

得到。

• 译文长度，避免模型倾向于短译文，同时让系统自动学习对译文长度的偏好。

• 翻译规则数量，为了避免模型仅使用少量特征构成翻译推导（规则数量少，短

语翻译概率相乘的因子也会少，得分一般会大一些），同时让系统自动学习对

规则数量的偏好。

• 被翻译为空的源语言单词数量。注意，空翻译特征有时也被称作有害特征（Evil

Feature），这类特征在一些数据上对 BLEU 有很好的提升作用，但会造成人工

评价结果的下降，需要谨慎使用。

• 基于 MSD 的调序模型，包括与前一个短语的调序模型 f

M-pre

(d) 、f

S-pre

(d) 、

f

D-pre

(d) 和与后一个短语的调序模型 f

M-fol

(d) 、f

S-fol

(d) 、f

D-fol

(d)，共 6 个特

征。