32 Chapter 1. 机器翻译简介 肖桐 朱靖波
1.3 机器翻译现状及挑战
机器翻译技术发展到今天已经过无数次迭代,技术范式也经过若干次更替,近些
年机器翻译的应用也如雨后春笋相继浮现。今天的机器翻译的质量究竟如何呢?乐
观地说,在很多特定的条件下,机器翻译的译文结果是非常不错的,甚至可以接近
人工翻译的结果。然而,在开放式翻译任务中,机器翻译的结果还并不完美。更严格
来说,机器翻译的质量远没有达到人们所期望的程度。对于有些人提到的“机器翻
译将代替人工翻译”也并不是事实。比如,在高精度同声传译任务中,机器翻译仍
需要更多打磨;再比如,针对于小说的翻译,机器翻译还无法做到与人工翻译媲美;
甚至有人尝试用机器翻译系统翻译中国古代诗词,这里更多的是娱乐的味道。但是
毫无疑问的是,机器翻译可以帮助人类,甚至有朝一日可以代替一些低端的人工翻
译工作。
机器
3.9
4.7
评价对象
打分
(分)
机器
47
100
评价对象
打分
(分)
人工评价(五分制)
自动评价(百分制)
1.6 机器翻译与人工翻译性能对比(汉英新闻领域翻译)
1.6展示了机器翻译和人工翻译质量的一个对比结果。在汉语到英语的新闻
译任务中,如果对译文进行人工评价(五分制)那么机器翻译的译文得分为 3.9 分,
人工译文得分为 4.7 分(人的翻译也不是完美的)。可见,在这个任务中机器翻译表
现不错,但是与人还有一定差距。如果换一种方式评价,把人的译文作为参考答案,
用机器翻译的译文与其进行比对(百分制),会发现机器翻译的得分只 47 分。当
然,这个结果并不是说机器翻译的译文质量很差,它更多的是表明机器翻译系统可
以生成一些与人工翻译不同的译文,机器翻译也具有一定的创造性。这也类似于,
多围棋选手都想向
AlphaGo
学习,因为智能围棋系统也可以走出一些人类从未走过
的妙招。
1.7展示了一个真实的汉语到英语翻译实例。对比发现,机器翻译与人工翻
还是存在差距的,特别是在翻译一些具有感情色彩的词语时,机器翻译的译文缺一
些味道。那么,机器翻译一点用都没有吗?显然不是。实际上,如果考虑翻译速度与
翻译代价,机器翻译的价值是无可比拟的。还是同一个例子,翻译一篇短文如果人
工翻译需要 30 分钟甚至更长时间,那么机器翻译仅仅需要两秒,换种情况思考,
果有 100 万篇这样的文档,其人工翻译的成本根本无法想象,消耗的时间更是难
计算,而计算机集群仅仅需要一天,而且只有电力的消耗。
虽然机器翻译有上述优点,但仍然面临一些挑战:
1.3 机器翻译现状及挑战 33
言:从前有一个小岛,上面住着快乐、悲哀、知识和爱,还有其他各种情感。一天,情感们得知
小岛快要下沉了。于是,大家都准备船只,离开小岛,只有爱决定留下来,她想坚持到最后
一刻。过了几天,小岛真的要下沉了,爱想请人帮忙。
机器翻译:Once upon a time there was an island on which lived happiness,sorrow,knowledge,love and other
emotions. One day, the emotions learned that the island was going to sink.As a result,everyone pre
-pared the boat and left the island. Only Love decided to stay.She wanted to stick to it until the last
moment. After a few days, the island was really going to sink and love wanted help.
人工翻译:Once upon a time, there was a small island where lived all kinds of emotions like JOY,SADNESS,
KNOWLEDGE, and LOVE.One day, these emotions found that the island was sinking, so one by
one they prepared the boat and planned to leave. None but LOVE chose to stay there. She was deter
-mined to persist till the last moment.A few days later, almost the whole island sunk into the sea,
and LOVE had to seek for help.
1.7 机器翻译与人工翻译结果对比实例
自然语言翻译问题的复杂性极高自然语言具有高度的概括性、灵活性、多样性,
这些都很难用几个简单的模型和算法进行描述。因此,翻译问题的数学建模和
计算机程序实现难度很大。虽然近几年 AlphaGo 等人工智能系统在围棋等领域
取得了令人瞩目的成绩,但是,相比翻译来说,围棋等棋类任务仍然“简单”
如不人对同一句话理解不尽相同,个句子往往不在绝对的标准译文,
其潜在的译文几乎是不可穷尽的。甚至人类译员在翻译一个句子、一个单词的
时候,都要考虑整个篇章的上下文语境。这些难点都不是传统棋类任务所具有
的。
计算机的“理解”与人类的“理解”存在鸿沟人类一直希望把自己翻译时所使用
的知识描述出来,并用计算机程序进行实现,例如早期基于规则的机器翻译方
法就源自这个思想。但是,经过实践发现,人和计算机在“理解”自然语言上
存在着明显差异。首先,人类的语言能力是经过长时间在多种外部环境因素共
同作用下形成的,这种能力很难用计算机准确地刻画。况且人类的语言知识本
身就很难描述,更不用说让计算机来理解;其次,人和机器翻译系统理解语言
的目的不一样。人理解和使用语言是为了进行生活和工作,而机器翻译系统更
多的是为了对某些数学上定义的目标函数进行优化。也就是说,机器翻译系统
关注的是翻译这个单一目标,而并不是像人一样进行复杂的活动;此外,人和
计算机的运行方式有着本质区别。人类语言能力的生物学机理与机器翻译系统
所使用的计算模型本质上是不同的,机器翻译系统使用的是其自身能够理解的
“知识”比如,统计学上的词语表示。这种“知识”并不需要人来理解,当然
从系统开发的角度,计算机也并不需要理解人是如何思考的。
单一的方法无法解决多样的翻译问题。首先,语种的多样性会导致任意两种语
之间的翻译实际上都是不同的翻译任务。比如,世界上存在的语言多达几千种,
如果选择任意两种语言进行互译就会产生上百万种翻译方向。虽然已经有研究
者尝试用同一个框架甚至同一个翻译系统进行全语种的翻译,但是这类系统离
34 Chapter 1. 机器翻译简介 肖桐 朱靖波
真正可用还有很远的距离;其次,不同的领域,不同的应用场景对翻译也有不
同的需求。比如,文学作品的翻译和新闻的翻译就有不同、口译和笔译也有不
同,类的情况不枚举。以上些都增加计算机对译进行建的难度;
再次,对于机器翻译来说,充足的高质量数据是必要的,但是不同语种、不同
领域、不同应用场景所拥有的数据量有明显差异,很多语种甚至几乎没有可用
的数据,这时开发机器翻译系统的难度可想而知。值得注意的是,现在的机器
翻译还无法像人类一样在学习少量样例的情况下进行举一反三,因此数据稀缺
情况下的机器翻译也给研究者带来了很大的挑战。
显然,实现机器翻译并不简单,甚至有人把机器翻译看作是实现人工智能的终
极目标。幸运的是,今天的机器翻译无论从技术方法上还是从应用上都有了巨大的
飞跃,很多问题在不断被求解。如果读者看到过十年前机器翻译的结果,再对比今
天的结果,一定会感叹翻译质量的今非昔比,很多译文已经非常准确且流畅。从当
今机器翻译的前沿技术看,近三十年机器翻译的进步更多得益于基于数据驱动方法
和统计建模方法的使用。特别是近些年深度学习等基于表示学习的端到端方法使得
机器翻译的水平达到了新高度。因此,本书将会对基于统计建模和深度学习方法的
机器翻译模型、方法和系统实现进行全面介绍和分析,希望这些论述可以对相关内
容的学习和科研工作提供参考。