5.3 噪声信道模型 159
5.3 噪声信道模型
在5.2节中,我们实现了一个简单的基于词的统计机器翻译模型,内容涉及建模、
训练和解码。但是,还有很多问题还没有进行深入讨论,比如,如何处理空翻译?如
何对调序问题进行建模?如何用更严密的数学模型描述翻译过程?如何对更加复杂
的统计模型进行训练?等等。针对以上问题,本节将系统地介绍 IBM 统计机器翻译
模型。作为经典的机器翻译模型,对 IBM 模型的学习将有助于对自然语言处理问题
建立系统化建模思想,特别是对问题的数学描述方法将会成为理解本书后续内容的
基础工具。
首先,重新思考一下人类进行翻译的过程。对于给定的源语句 s,人不会像计算
机一样尝试很多的可能,而是快速准确地翻译出一个或者少数几个正确的译文。在
人看来,除了正确的译文外,其他的翻译都是不正确的,或者说除了少数的译文人甚
至都不会考虑太多其他的可能性。但是,在统计机器翻译的世界里,没有译文是不
可能的。换句话说,对于源语言句子 s,所有目标语词串 t 都是可能的译文,只是可
能性大小不同。这个思想可以通过统计模型实现:每对 (s,t) 都有一个概率值 P (t|s)
来描述 s 翻译为 t 的好与坏(图5.11)。
s
b
t
正确翻译
s
t
1
t
2
t
3
t
4
P (t
1
|s) = 0.1
P (t
2
|s) = 0.2
P (t
3
|s) = 0.3
P (t
4
|s) = 0.1
(a)人的翻译候选空间
(b)机器的翻译候选空间
图 5.11 不同翻译候选空间的对比:人(左)vs 机器翻译(右)
IBM 模型也是建立在如上统计模型之上。具体来说,IBM 模型的基础是噪声信道
模型(Noise Channel Model),它是由 Shannon 在上世纪 40 年代末提出来的
[241]
,并于
上世纪 80 年代应用在语言识别领域,后来又被 Brown 等人用于统计机器翻译中
[9, 10]
。
在噪声信道模型中,目标语言句子 t(信源)被看作是由源语言句子 s(信宿)经
过一个有噪声的信道得到的。如果知道了 s 和信道的性质,可以通过 P (t|s) 得到信
源的信息,这个过程如图5.12所示。
s
t
噪声信道
信宿 信源
图 5.12 噪声信道模型
举个例子,对于汉译英的翻译任务,英语句子 t 可以被看作是汉语句子 s 加入
噪声通过信道后得到的结果。换句话说,汉语句子经过噪声-信道传输时发生了变化,
在信道的输出端呈现为英语句子。于是需要根据观察到的汉语特征,通过概率 P (t|s)