38 Chapter 1. 机器翻译简介 肖桐 朱靖波
转换”这个过程,这一点与基于转换的方法有很大区别。
语言 1
语言 3
语言 2
语言 4
中间语言
(a) 基于中间语言的方法
语言 1
语言 3
语言 2
语言 4
(b) 基于转换的方法
图 1.12 基于中间语言的方法 (a) 与基于转换的方法 (b)
从图1.9可以发现,中间语言(知识表示)处于最顶端,本质上是独立于源语言
和目标语言的,这也是基于中间语言的方法可以将分析过程和生成过程分开的原因。
虽然基于中间语言的方法有上述优点,但如何定义中间语言是一个关键问题。严
格上说,所谓中间语言本身是一种知识表示结构,承载着源语言句子的分析结果,应
该包含和体现尽可能多的源语言知识。如果中间语言的表示能力不强,会导致源语
言句子信息丢失,这自然会影响目标语言生成结果。
在基于规则的机器翻译方法中,构建中间语言结构的知识表示方式有很多,比
较常见的是语法树、语义网、逻辑结构表示或者多种结构的融合等。但不管哪种方
法,实际上都无法充分地表达源语言句子所携带的信息。因此,在早期的基于规则
的机器翻译研究中,基于中间语言的方法明显弱于基于转换的机器翻译方法。不过,
近些年随着神经机器翻译等方法的兴起,使用统一的中间表示来刻画句子又受到了
广泛关注。但是,神经机器翻译中的“中间表示”并不是规则系统中的中间语言,二
者有着本质区别,这部分内容将会在第十章进行介绍。
1.4.4 规则方法的优缺点
在基于规则的机器翻译时代,机器翻译技术研究有一个特点就是语法(Grammer)
和算法(Algorithm)分开,相当于是把语言分析和程序设计分开。传统方式使用程
序代码来实现翻译规则,并把所谓的翻译规则隐含在程序代码实现中。其中最大问
题是一旦翻译规则发生修改,程序代码也需要进行相应修改,导致维护代价非常高。
此外书写翻译规则的语言学家与编代码的程序员沟通代价也非常高,有时候会出现
鸡同鸭讲的感觉。把语法和算法分开对于基于规则的机器翻译技术来说最大好处就
是可以将语言学家和程序员的工作分开,各自发挥自己的优势。
这种语言分析和程序设计分开的实现方式也使得基于人工书写翻译规则的机器
翻译方法非常直观,语言学家可以很容易地将翻译知识利用规则的方法表达出来,并
且不需要修改系统代码。例如:1991 年,东北大学自然语言处理实验室王宝库教授
提出的规则描述语言(CTRDL)
[18]
。以及 1995 年,同为东北大学自然语言处理实验