4. 翻译质量评价
人们在使用机器翻译系统时需要评估系统输出结果的质量。这个过程也被称
机器翻译译文质量评价,简称为译文质量评价Quality Evaluation of Translation
机器翻译的发展进程中,译文质量评价有着非常重要的作用。不论在系统研发的
复迭代中,还是在诸多的机器翻译应用场景中,都存在大量的译文质量评价环节。
某种意义上说,没有译文质量评价,机器翻译也不会发展成今天的样子。比如,本世
纪初研究人员提出了译文质量自动评价方法 BLEUBilingual Evaluation Understudy
[128]
该方法使得机器系统的评价变得自动、快速、便捷,而且评价过程可以重复。
是由于 BLEU 等自动评价方法的提出,机器翻译研究人员可以在更短的时间内得到
译文质量的评价结果,加速系统研发的进程。
时至今日,译文质量评价方法已经非常富,针对不同的使用场景研究人员
续提出了不同的方法。本章将会对其中的典型方法进行介绍,包括:人工评价、有参
考答案自动评价、无参考答案自动评价等。相关方法及概念也会在本章的后续章
中被广泛使用。
4.1 译文质量评价所面临的挑战
一般来说,译文质量评价可以被看作是一个对译文进行打分或者排序的过程,
分或者排序的结果代表了翻译质量的好坏。比如,表4.1展示一个汉译英的译文质量
评价结果。这里采用了 5 分制打分,1 代表最低分,5 代表最高分。可以看出,流畅
的高质量译文得分较高,相反,存在问题的译文得分较低。
110 Chapter 4. 翻译质量评价 肖桐 朱靖波
4.1 汉译英译文质量评价实例
源文 //敏捷//棕色/狐狸/跳过////懒惰/// 评价得分
机器译文 1 The quick brown fox jumped over the lazy dog . 5
机器译文 2 The fast brown fox jumped over a sleepy dog . 4
机器译文 3 The fast brown fox jumps over the dog . 3
机器译文 4 The quick brown fox jumps over dog . 2
机器译文 5 A fast fox jump dog . 1
这里的一个核心问题是:从哪个角度对译文质量进行评价呢?常用的标准有:
畅度Fluency)和诚度Fidelity
[129]
。其中流畅度是指译文在目标语言中的流畅
程度,越通顺的译文流畅度越高;忠诚度是指译文表达源文意思的程度,如果译
能够全面、准确的表达源文的意思,那么它具有较高的翻译忠诚度。在一些极端
情况下,译文可以非常流畅,但是与源文完全不对应。或者,译文可以非常好的对应
源文,但是读起来非常不连贯。这些译文都不是很好的译文。
传统观点把翻译分为“信”“达”“雅”三个层次,而忠诚度体现的是一种“信”
的思想,而流畅度体现的是一种“达”的思想。不过“雅”在机器翻译评价中还不是
一个常用的标准,而且机器翻译还没有达到“雅”的水平,是未来所追求的目标。
给定评价标准,译文质量价有很多实现方式。比如,以使用人工评价的
式让评委对每个译文进行打分4.2节)也可以用自动评价的方式让计算机比对译文
和参考答案之间的匹配的程度4.3节)但是,自然语言的翻译是最复杂的人工智能
问题之一。这不仅仅体现在相关问题的建模和系统实现的复杂性上,译文质量评
也同样面临着诸多挑战。
译文不唯一自然语言表达的丰富性决定了同一个意思往往有很多种表达方式。
同一句话,由不同译者的翻译也往往存在差异。译者的背景、翻译水平、翻译
所处的语境,甚至译者的情绪都会对译文产生影响。如何在评价过程中尽可能
考虑多样的译文,是译文质量评价中最具挑战的问题之一。
评价标准不唯一虽然流畅度和忠诚度给译文质量评价提供了很好的参考依据,
但是在实践中往往会有更多样的需求。比如,在专利翻译中,术语翻译的准确
性就是必须要考虑的因素,一个术语的翻译错误会导致整个译文不可用。此外,
术语翻译的一致性也是非常重要的,即使同一个术语有多种正确的译文,但是
在同一个专利文档中,术语翻译需要保持一致。不同的需求使得很难用统一的
标准对译文质量进行评价。在实践中,往往需要针对不同应用场景设计不同的
评价标准。
自动评价与人工评价存在着偏差固然使用人工的方式可以准确地评估译文质量,
但是这种方式费时、费力。而且由于人工评价的主观性,其结果不易重现,
就是不同人的评价结果会有差异。这些因素也造成了人工评价不能被过于频繁
4.1 译文质量评价所面临的挑战 111
的使用。翻译质量的自动评价可以充分利用计算机的计算能力,对译文与参考
答案比对,度快、可重点,但度不工评价。
使用何种评价方法也是实践中需要考虑的重要问题之一。
答案容易下,取。
某些低资源语种,相关的语言学家都很稀缺。这时很难进行基于标准答案的评
价。如何在没有参考答案的情况下对译文质量进行估计是极具应用前景且颇具
挑战的方向。
针对以上问题,研究人员设计出多种不的译文质量评价方法。根据人工参
方式的不同,可以分为人工评价、有参考答案的自动评价、无参考答案的自动评价。
这些方法也对应了不同的使用场景。
评价标准
人工构造
参考答案
人不参与
评价
人直接
进行评价
需要较为复杂的建模,
开发难度同机器翻译系统
无参考答案的评价
单词级评价
短语级评价
句子级评价
篇章级评价
基于指标性公式和
简单的建模
有参考答案的评价
BLEUNIST
GTMMeteor
WERPERTER
HTER ...
人工评价
流畅度、忠实度、
一致性 ...
用于估计同一个
系统不同输出的
可信度
用于对比
不同系统
性能差异
成本高但精度高
成本低
无人工
有偏差
用于机器
翻译系统
调优
4.1 译文质量评价方法逻辑图
人工评价。当需要对系统进行准确的评估时,往往采用人工评价。比如,对于
机器翻译的一些互联网应用,在系统上线前都会采用人工评价对机器翻译系统
性能进行测试。当然,这种方法的时间和人力成本是最高的。
有参考答案的自动评价由于机器翻译系统研发过程中需要频繁地对系统性能进
行评价,这时可以让人标注一些正确的译文,之后把这些译文作为参考答案与
机器翻译系统输出的结果进行比对。这种自动评价的结果获取成本低,可以多
次重复,而且可以用于对系统结果的快速反馈,指导系统优化的方向。
无参考答案的自动评价在很多应用场景中,在系统输出译文时,使用者希望提
前知道译文的质量,即使这时并没有可比对的参考答案。这样,系统使用者可
以根据这个对质量的“估计”结果有选择地使用机器翻译译文。严格意义上说,
112 Chapter 4. 翻译质量评价 肖桐 朱靖波
这并不是一个传统的译文质量评价方法,而是一种对译文置信度和可能性的估
计。
4.1给出了机器翻译译文评价方法的逻辑关系图。需要注意的是,很多时候,
文质量评价结果是用于机器翻译系统优化的。在随后的章节中也会看到,译文评
的结果会被用于不同的机器翻译模型优化中。甚至很多统计指标(如极大似然估计)
也可以被看作是一种对译文的“评价”这样就可以把机器翻译的建模和译文评价联
系在了一起。本章的后半部分将重点介绍传统的译文质量评价方法。与译文质量
价相关的模型优化方法将会在后续章节详细论述。