5.2 一个简单实例 147
当然,每个人进行翻译时所使用的方法和技巧都不相同,所谓人工翻译也没有
固定的流程。但是,可以确定的是,人在进行翻译时也需要“学习”和“运用”翻译
知识。对翻译知识“学习”和“运用”的好与坏,直接决定了人工翻译结果的质量。
2. 机器翻译流程
人进行翻译的过程比较容易理解,那计算机是如何完成翻译的呢?虽然人工智
能这个概念显得很神奇,但是计算机远没有人那么智能,有时甚至还很“笨”。一方
面,它没有能力像人一样,在教室里和老师一起学习语言知识;另一方面,即使能列
举出每个单词的候选译文,但是还是不知道这些译文是怎么拼装成句的,甚至不知
道哪些译文是对的。为了更加直观地理解机器在翻译时要解决的挑战,可以将问题
归纳如下:
如何让计算机获得每个单词的译文,然后将这些单词的译文拼装成句?
如果可以形成整句的译文,如何让计算机知道不同译文的好坏?
对于第一个问题,可以给计算机一个翻译词典,这样计算机可以发挥计算方面
的优势,尽可能多地把翻译结果拼装出来。比如,可以把每个翻译结果看作是对单
词翻译的拼装,这可以被形象地比作贯穿多个单词的一条路径,计算机所做的就是
尽可能多地生成这样的路径。图中蓝色和红色的折线就分别表示了两条不同的译
文选择路径,区别在于“满意”和“对”的翻译候选是不一样的,蓝色折线选择的是
“”和“”,而红色折线是“”和“”。换句话说,不同的译文对应
不同的路径(即使词序不同也会对应不同的路径)。
对于第二个问题,尽管机器能够找到很多译文选择路径,但它并不知道哪些路
径是好的。说地再直白一些,简单地枚举路径实际上就是一个体力活,没有太多的
智能。因此计算机还需要再聪明一些,运用它的能够“掌握”的知识判断翻译结果
的好与坏。这一步是最具挑战的,当然也有很多思路来解决这个问题。在统计机器
翻译中,这个问题被定义为:设计一种统计模型,它可以给每个译文一个可能性,而
这个可能性越高表明译文越接近人工翻译。
如图所示,每个单词翻译候选的右侧黑色框里的数字就是单词的翻译概率,
使用这些单词的翻译概率,可以得到整句译文的概率(用符号 P 表示)。这样,就用
概率化的模型描述了每个翻译候选的可能性。基于这些翻译候选的可能性,机器翻
译系统可以对所有的翻译路径进行打分,比如,图中第一条路径的分数为 ,
第二条是 ,以此类推。最后,系统可以选择分数最高的路径作为源语言句子的
最终译文。
3. 人工翻译 vs 机器翻译
人在翻译时的决策是非常确定并且快速的,但计算机处理这个问题时却充满了
概率化的思想。当然它们也有类似的地方。首先,计算机使用统计模型的目的是把
翻译知识变得可计算,并把这些“知识”储存在模型参数中,这个模型和人类大脑的