26 Chapter 1. 机器翻译简介 肖桐 朱靖波
1.2 机器翻译简史
虽然翻译这个概念在人类历史中已经存在了上千年,但机器翻译发展至今只
七十余年的历史。纵观机器翻译的发展,历程曲折又耐人寻味,可以说,回顾机器翻
译的历史对深入理解相关技术方法会有很好的启发,甚至对了解整个自然语言处
领域的发展也有启示作用。
1.2.1 人工翻译
人类形成语言文字的过程中逐渐形成了翻译的概念。一个著名的标志性证据
罗塞塔石碑(Rosetta Stone,如图1.3所示。这个石碑制作于公元前 196 年,据说是
可供考证的最久远的记载平行文字的历史遗迹。石碑由上至下刻有同一段埃及国
诏书的三种语言版本,最上面是古埃及象形文,中间是埃及草书,最下面是古希
文。可以明显看出石碑上中下雕刻的文字的纹理是不同的。尽管用不同的语言文
描述同一件事在今天看来很常见,但是这在生产力低下的两千年前是很罕见的。
多人认为罗塞塔石碑是标志翻译或人工翻译的一个起点。目前罗塞塔石碑保存于
英博物馆,并成为该馆最具代表性的镇馆之宝之一。
1.3 罗塞塔石碑
在此之后,更多的翻译工作在文化和知传播中开展。其中一个典型代表是
教文献的翻译。宗教是人类意识形态的一个重要载体,为了宣传教义,人们编写
大量的宗教文献。在西方,一项最早被记录的翻译活动是将旧约圣经(希伯来文
埃兰文)翻译为希腊文版本。迄今为止人类历史上翻译版本最多的书就是圣经。
中国唐代,有一位世界性的文化人物
——
玄奘,他不仅是佛学家、旅行家,还是翻
译家。玄奘西行求法归来后把全部的心血和智慧奉献给了译经事业,在助手们的
助下,共翻译佛教经论 74 部,1335 卷,每卷万字左右,合计 1335 万字,占去整个
1.2 机器翻译简史 27
唐代译经总数的一半以上
[1]
,树立了我国古代翻译思想的光辉典范。
翻译在人类历史长河中到了重要的作用。一方面,于语言文字、文化和
理位置的差异性,使得翻译成为一个重要的需求;另一方面,翻译也加速了不同
明的融会贯通,促进了世界的发展。今天,翻译已经成为重要的行业之一,包括各个
高校也都设立了翻译及相关专业,相关人才不断涌现。据《2019 年中国语言服务行
业发展报告》
[2]
统计:全球语言服务产值预计将首次接近 500 亿美元;中国涉及语言
服务的在营企业 360,000 余家,语言服务为主营业务的在营企业近万家,总产值超过
300 亿元,年增长 3% 以上;全国开设外语类专业的高校数量多达上千所,其中设立
有翻译硕士(MTI)和翻译本科BTI)专业的院校分别有 250 余所和 280 余所,其
中仅 MTI 累计招生数就高达 6 万余人
[3]
。当然,面对着巨大的需求,如何使用
器辅助翻译等技术手段提高人工翻译效率,也是人工翻译和机器翻译领域需要共
探索的方向。
1.2.2 机器翻译的萌芽
人工翻译已经存在了上千年,而机器翻又起源于什么时候呢?机器翻译跌
起伏的发展史可以分为萌芽期、受挫期、快速成长期和爆发期四个阶段。
早在 17 世纪, DescartesLeibnizCave BeckAthanasius Kircher Johann
Joachim Becher 等很(电典)
[4]
这种想法在当时是很超前的。随着语言学、计算机科学等学科的发展, 19
30 年代使用计算模型进行自动翻译的思想开始萌芽,如当时法国科学家 Georges
Artsrouni 提出用机器来进行翻译的想法。只是那时依然没有合适的实现手段,所
以这种想法的合理性无法被证实。
随着第二次世界大战爆发,对文字进行密和解密成为重要的军事需求,这
使得数学和密码学变得相当发达。在战争结束一年后,世界上第一台通用电子数
计算机于 1946 年研制成功,至此使用机器进行翻译有了真正实现的可能。
基于战时密码学领域与通讯领域的研究,Claude Elwood Shannon 1948 年提出
使用“噪声信道”描述语言的传输过程,并借用热力学中的Entropy来刻画消
息中的信息量
[
5]
次年,Shannon Warren Weaver 更是合著了著名的 The Mathematical
Theory of Communication
[6]
,这些工作都为后期的统计机器翻译打下了理论基础。
1949 年,Weaver 写了一篇名为 TRANSLATION 的备忘录
[7]
,在这个备忘录中
Weaver 提出用密码学的方法解决人类语言翻译任务的想法,比如把汉语看成英语的
一个加密文本,那么将汉语翻译成英语就类似于解密的过程。并且在这篇备忘录
第一次提出了机器翻译,正式开创了机器翻译的概念,这个概念一直沿用至今。
然,在那个年代进行机器翻译的研究条件并不成熟,包括使用加密解密技术进行
动翻译的很多尝试很快也被验证是不可行的,但是这些早期的探索为后来机器翻
的发展提供了思想的火种。
28 Chapter 1. 机器翻译简介 肖桐 朱靖波
1.2.3 机器翻译的受挫
随着电子计算机的发展,研究者开始尝试使用计算机来进行自动翻译。1954 年,
美国乔治敦大学在 IBM 公司支持下,启动了第一次真正的机器翻译实验。翻译的目
标是将几个简单的俄语句子翻译成为英语,翻译系统包 6 翻译规则和 250
词。这次翻译实验中测试了 50 个化学文本句子,取得了初步成功。在某种意义上来
说,这个实验显示了采用基于词典和翻译规则的方法可以实现机器翻译过程。虽
只是取得了初步成功,但却引起了苏联、英国和日本研究机构的机器翻译研究热,
大推动了早期机器翻译的研究进展。
1957 年,Noam Chomsky Syntactic Structures 中描述了转换生成语法
[8]
,并使
用数学方法来研究自然语言,建立了包括上下文有关语法、上下文无关语法等 4 种类
型的语法。这些工作最终为今天计算机中广泛使用的“形式语言”奠定了基础。而他
的思想也深深地影响了同时期的语言学和自然语言处理领域的学者。特别的是,
期基于规则的机器翻译中也大量使用了这些思想。
1.4 ALPAC 报告
虽然在这段时间,使用机器进行翻译的题越加火热,但是事情并不总是一
风顺,怀疑论者对机器翻译一直存有质疑,并很容易找出一些机器翻译无法解决
问题。自然地,人们也期望能够客观地评估一下机器翻译的可行性。当时美国基金资
助组织委任自动语言处理咨询会承担了这项任务。经过近两年的调查与分析,该
员会于 1966 11 月公布了一个题为 LANGUAGE AND MACHINES 的报告(图1.4
1.2 机器翻译简史 29
ALPAC 报告。该报告全面否定了机器翻译的可行性,为机器翻译的研究泼了一盆
冷水。
随后美国政府终止了对机器翻译研究的支持,这导致整个产业界和学术界都
始回避机器翻译。没有了政府的支持,企业也无法进行大规模投入,机器翻译的
究就此受挫。
从历史上看,包括机器翻译在内,很多人工智能领域在那个年代并不受“待见”
其主要原因在于当时的技术水平还比较低,而大家又对机器翻译等技术的期望过高。
最后发现,当时的机器翻译水平无法满足实际需要,因此转而排斥它。但是,也正是
这一盆冷水,让研究人员可以更加冷静地思考机器翻译的发展方向,为后来的爆
蓄力。
1.2.4 机器翻译的快速成长
事物的发展都是螺旋式上升的,机器翻也是一样。早期基于规则的机器翻
方法需要人来书写规则,虽然对少部分句子具有较高的翻译精度,可是对翻译现
的覆盖度有限,而且对规则或者模板中的噪声非常敏感,系统健壮性差。
上世 70 年代后期,别是 80 90 年代初,国家间往来日密切,
而不同语言之间形成的交流障碍愈发严重,传统的人工作业方式已经远远不能满
需求。与此同时,语料库语言学的发展也为机器翻译提供了新的思路。一方面,随着
传统纸质文字资料不断电子化,计算机可读的语料越来越多,这使得人们可以用
算机对语言规律进行统计分析。另一方面,随着可用数据越来越多,用数学模型
述这些数据中的规律并进行推理逐渐成为可能。这也衍生出一类数学建模方
——
数据驱动Data-driven的方法。同时这类方法也成为了随后出现的统计机器翻译的
基础,比如,IBM 究人员提出的基于噪声信道模型 5 种统计翻译模型就使用了
这类方法
[9, 10]
基于数据驱动的方法不依赖于人书写规则,机器翻译的建模、训练和推断
可以自动地从数据中学习。这使得整个机器翻译的范式发生了翻天覆地的变化,
如,日本学长尾提出基于例的
[11, 12]
和统计机翻译
[9, 10]
就是在此
兴起的。此外,这样的方法使得机器翻译系统的开发代价大大降低。
从上世纪 90 年代到本世纪初,随着语料库的完善与高性能计算机的发展,统计
机器翻译很快成为了当时机器翻译研究与应用的代表性方法。一个标志性的事件
谷歌公司推出了一个在线的免费自动翻译服务,也就是大家熟知的谷歌翻译。这使
得机器翻译这种“高大上”的技术快速进入人们的生活,而不再是束之高阁的科
想法。随着机器翻译不断走向实用,机器翻译的应用也越来越多,这反过来促进
机器翻译的研究进程。比如, 2005-2015 年间,统计机器翻译这个主题几乎统治了
ACL 等自然语言处理相关方向顶级会议的论文,可见其在当时的影响力。
30 Chapter 1. 机器翻译简介 肖桐 朱靖波
1.2.5 机器翻译的爆发
进入二十一世纪,统计机翻译拉开了黄金发展期序幕。在这一时期,各
基于统计机器翻译模型层出不穷,经典的基于短语的模型和基于句法的模型也先
被提出。 2013 年以后,机器学习的进步带来了机器翻译技术的进一步提升。特别
是基于神经网络的深度学习方法在机器视觉、语音识别中被成功应用,带来性能
飞跃式提升。很快,深度学习方法也被用于机器翻译。
实际上,对于机器翻译任来说,深度学习方法被广使用也是一种必然,
因如下:
第一,端到端学习不依赖于过多的先验假设。在统计机器翻译时代,模型设计
或多或少会对翻译的过程进行假设,称为隐藏结构假设。比如基于短语的模型
假设:源语言和目标语言都会被切分成短语序列,这些短语之间存在某种对齐
关系。这种假设既有优点也有缺点:一方面,该假设有助于模型融入人类的先
验知识,如,器翻设计的相念;
另一方面,假设越多模型受到的限制也越多。如果假设是正确的,模型可以很
好地描述问题。但如果假设错误,那么模型就可能产生偏差。深度学习不依赖
于先验知识,也不需要手工设计特征,模型直接从输入和输出的映射上进行学
习(端到端学习),这样也在一定程度上避免了隐藏结构假设造成的偏差。
第二,神经网络的连续空间模型有更强的表示能力。机器翻译中的一个基本问
题是:如何表示一个句子?统计机器翻译把句子的生成过程看作是短语或者规
则的推导,这本质上是一个离散空间上的符号系统。深度学习把传统的基于离
散化的表示变成了连续空间的表示。比如,用实数空间的分布式表示代替了离
散化的词语表示,而整个句子可以被描述为一个实数向量。这使得翻译问题可
以在连续空间上描述,进而大大缓解了传统离散空间模型维度灾难等问题。
重要的是,连续空间模型可以用梯度下降等方法进行优化,具有很好的数学性
质并且易于实现。
第三,深度网络学习算法的发展和图形处理单元Graphics Processing UnitGPU
等并行计算设备为训练神经网络提供了可能。早期的基于神经网络的方法一直
没有在机器翻译甚至自然语言处理领域得到大规模应用,其中一个重要的原因
是这类方法需要大量的浮点运算,但是以前计算机的计算能力无法达到这个要
求。随着 GPU 等并行计算设备的进步,训练大规模神经网络也变为了可能。
在已经可以在几亿、几十亿,甚至上百亿句对上训练机器翻译系统,系统研发
的周期越来越短,进展日新月异。
今天,神经机器翻译已经成为新的范式,统计机器翻译一同推动了机器翻
技术与应用产品的发展。比如,从世界上著名的机器翻译比赛 WMT CCMT 中就
可以看出这个趋势。如图1.5所示,其中左图是 WMT 19 国际机器翻译比赛的参赛队
伍的截图,这些参赛队伍基本上都在使用深度学习完成机器翻译的建模。而在 WMT
1.2 机器翻译简史 31
19 各个项目的夺冠系统中(1.5右图),神经机器翻译也占据了主导地位。
1.5 WMT 19 国际机器翻译大赛(左:WMT 19 参赛队伍;右:WMT 19 各项目的最高分数)
值得一提的是,近些年神经机器翻译的速发展也得益于产业界的关注。各
互联网企业和机器翻译技术研发机构都对神经机器翻译的模型和实践方法给予了
大贡献。很多企业凭借自身人才和基础设施方面的优势,先后推出了以神经机器
译为内核的产品及服务,相关技术方法已经在大规模应用中得到验证,大大推动
机器翻译的产业化进程,而且这种趋势在不断加强,机器翻译的前景也更加宽广。