6.2 基于繁衍率的模型 185
这里用特殊的空标记 NULL 表示翻译对空的情况;
• 最后,把生成的所有汉语单词放在合适的位置。比如“科学家”和“们”分别放在
s 的位置 1 和位置 2。可以用符号 π 记录生成的单词在源语言句子 s 中的位置。
比如“Scientists”生成的汉语单词在 s 中的位置表示为 π
1
= {π
11
= 1,π
12
= 2}。
为了表述清晰,这里重新说明每个符号的含义。s、t、m 和 l 分别表示源语言句
子、目标语言译文、源语言单词数量以及译文单词数量。φ、τ 和 π 分别表示产出率、
生成的源语言单词以及它们在源语言句子中的位置。φ
i
表示第 i 个目标语言单词 t
i
的产出率。τ
i
和 π
i
分别表示 t
i
生成的源语言单词列表及其在源语言句子 s 中的位置
列表。
可以看出,一组 τ 和 π(记为 < τ,π >)可以决定一个对齐 a 和一个源语句子 s。
相反的,一个对齐 a 和一个源语句子 s 可以对应多组 < τ,π >。如图6.6所示,不同的
< τ,π > 对应同一个源语言句子和词对齐。它们的区别在于目标语单词“Scientists”
生成的源语言单词“科学家”和“们”的顺序不同。这里把不同的 < τ,π > 对应到的
相同的源语句子 s 和对齐 a 记为 < s,a >。因此计算 P (s, a|t) 时需要把每个可能结果
的概率加起来,如下:
P (s,a|t) =
X
<τ,π>∈<s,a>
P (τ,π|t) (6.9)
s
τ
ϕ
t
科学家
们
并不
知道
τ
0
1.NULL
τ
1
1.
科学家
2.
们
τ
2
1.NULL
τ
3
1. 并不
τ
4
1. 知道
...
... ...
< τ,π >
1
... ...
科学家
们
并不
知道
τ
0
1.NULL
τ
1
1.
们
2.
科学家
τ
2
1.NULL
τ
3
1. 并不
τ
4
1. 知道
...
... ...
< τ,π >
2
... ...
图 6.6 不同 τ 和 π 对应相同的源语言句子和词对齐的情况
不过 < s,a > 中有多少组 < τ, π > 呢?通过图6.5中的例子,可以推出 < s,a > 应
该包含
Q
l
i=0
φ
i
! 个不同的二元组 < τ,π >。这是因为在给定源语言句子和词对齐时,