4.4 无参考答案的自动评价 131
4.4 无参考答案的自动评价
无参考答案自动评价在机器翻译领域又被称作质量评估Quality Estimation
QE与传统的译文质量评价方法不同,质量评估旨在不参照标准译文的情况下,
机器翻译系统的输出在单词、短语、句子、文档等各个层次进行评价。
人们对于无参考答案自动评价的需求大多来源于机器翻译的实际应用。例如,
机器翻译的译后编辑过程中,译员不仅仅希望了解机器翻译系统的整体翻译质量,
需要了解该系统在某个句子上的表现如何:该机器译文的质量是否很差?需要修改
的内容有多少?是否值得进行后编辑?这时,译员更加关注系统在单个数据点上(比
如一段话)的可信度而非系统在测试数据集上的平均质量。这时,太多的人工介入
就无法保证使用机器翻译所带来的高效性,因此在机器翻译输出译文的同时,需要
质量评估系统给出对译文质量的预估结果。这些需求也促使研究人员在质量评估问
题上投入了更多的研究力量。包括 WMTCCMT 等知名机器翻译评测中也都设置了
相关任务,受到了业界的关注。
4.4.1 质量评估任务
质量评估任务本质上是通过预测一个能够反映评价单元的质量标签,在各个层
次上对译文进行质量评价。在上文中已经提到,质量评估任务通常被划分为单词级、
短语级、句子级和文档级,在接下来的内容中,将对各个级别的任务进行更加详细
的介绍。
1. 单词级质量评估
机器翻译系统在翻译某个句子时,会出现各种类型的错误,这些错误多是一些
单词翻译问题,例如单词出现歧义、单词漏译、单词错译、词形转化错误等等。单词
级质量评价以单词为评估单元,目的是确定译文句子中每个单词的所在位置是否存
在翻译错误和单词漏译现象。
单词级质量评估任务可以被定义为:参照源语言句子,以单词为评价单位,自
动标记出机器译文中的错误。其中的“错误”包括单词错译、单词词形错误、单词漏
译等。在单词级质量评估任务中,输入是机器译文和源语言句子,输出是一系列标
签序列,即图4.9中的 Source tagsMT tagsGap tags标签序列中的每个标签对应翻
译中的每个单词(或其间隙),并表明该位置是否出现错误。
下面以实例4.8为例介绍该任务的具体内容,在实例4.8中加入后编辑结果是方便
读者理解任务内容,实际上质量评估任务在预测质量标签时并不依赖后编辑结果:
实例 4.8 单词级质量评估任务
源句(SourceDraw or select a line .(英语)
机器译文(MTZeichnen oder wählen Sie eine Linie aus .(德语)
后编辑结果PEZeichnen oder Sie eine Linie, oder wählen Sie eine aus .(德语)
132 Chapter 4. 翻译质量评价 肖桐 朱靖波
Source
Draw
or
select
a
line
.
PE
Zeichnen oder
Sie
eine linie
,
order wählen
Sie
eine
aus
.
MT
Zeichnen
oder
wählen
Sie
eine
Linie
aus
.
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
OK
OK
BAD
OK
OK
OK BAD
OK
OK
OK
OK
OK
OK
OK
Source tags
MT tags
Gap tags
4.9 单词级质量评估任务示意图
单词级质量评估主要通过以下三类错误评价译文好坏:
找出译文中翻译错误的单词单词级质量评估任务要求预测一个与译文等长的质
量标签序列,该标签序列反映译文端的每个单词是否能够准确表达出其对应的
源端单词的含义,若是可以,则标签为OK,反之则为“BAD。图4.9中的
连线表示单词之间的对齐关系,4.9中的 MT tags 即为该过程中需要预测的质
量标签序列。
找出源文中导致翻译错误的单词。单词级质量评估任务还要求预测一个与源文等
长的质量标签序列,该标签序列反映源文端的每个单词是否会导致本次翻译出
现错误,若是不会,则标签为OK反之则为BAD4.9中的 Source tags
即为该过程中的质量标签序列。在具体应用时,质量评估系统往往先预测译文
端的质量标签序列,并根据源文与译文之间的对齐关系,推测源端的质量标签
序列。
找出在翻译句子时出现漏译现象的位置。单词级质量评估任务同时也要求预测一
个能捕捉到漏译现的质量标签序列,在译文端单词两侧位置进行预测,
若某位置未出现漏译,则该位置的质量标签为OK否则为BAD4.9
Gap tags 即为该过程中的质量标签序列。为了检测句子翻译中的漏译现象,
需要译文标记缺口,译文的每单词两边各有个“GAP标记,
如图4.9所示。
2. 短语级质量评估
短语级质量评估可以看做是单词级质量评估任务的扩展:机器翻译系统引发的
错误往往都是相互关联的,解码过程中某个单词出错会导致更多的错误,特别是在
其局部上下文当中,以单词的“局部上下文”为基本单元进行质量评估即为短语级
质量评估。
短语级质量评估与单词级质量评估类似,其目标是找出短语中翻译错误、短语内
部语序问题及漏译问题。短语级质量评估任务可以被定义为:以若干个连续单词组成
4.4 无参考答案的自动评价 133
的短语为基本评估单位,参照源语言句子,自动标记出短语内部短语错误以及短语之
间的是否存在漏译。其中的短语错误包括短语内部单词的错译和漏译、短语内部单
词的语序错误,而漏译问题则特指短语之间的漏译错误。在短语级质量评估任务中,
输入是机器译文和源语言句子,输出是一系列标签序列,即图4.10中的 Phrase-target
tagsGap tags,标签序列中的每个标签对应翻译中的每个单词,并表明该位置是否
出现错误。
Source
Nach
Zubereitung
im
Kühlschrank aufbewahren und innerhalb
vonf
24
Stunden
aufbrauchen
MT
After
reconstitution
in
the
refrigerator
and used within
24
hours
BAD_word_order
OK
BAD
OK
OK
BAD_omission
OK OK OK
Phrase-target tags
Gap tags
4.10 短语级质量评估任务示意图
下面以实例4.9为例介绍该任务的具体内容:
实例 4.9 短语级质量评估任务(短语间用 || 分隔)
源句(SourceNach Zubereitung || im Kühlschrank aufbewahren || und innerha-
lb von 24 || Stunden aufbrauchen .(德语)
机器译文(MTAfter reconstitution || in the refrigerator || and used within 24 ||
hours . (英语)
短语级质量评估任务主要通过以下两类类错误评价译文好坏:
找出译文中翻译错误的短语要求预测一个能够捉短语内部单翻译错误、
词漏词顺标签列。列中都对
语,若是短语不存在任何错误,则标签为“OK若是短语内部存在单词翻译
错误和单词漏译,则标签为“BAD;若短语内部的单词顺序存在问题,则标
签为“BAD_word_order。图4.10的连线表示单词之间的对齐关系,蓝色虚
线框标出了每个短语的范围,4.10中的 Phrase-target tags 为该过程中需
预测的质量标签序列。
找出译文中短语之间漏译错误。短语级质量评估任务同时也要求预测一个能够捕
捉到语间的漏译现的质量标签序列,在译文端短语两侧位置进行预测,
若某位置未出现漏译,则该位置的质量标签为OK否则为BAD_omission
4.10中的 Gap tags 即为该过程中的质量标签序列。
为了检测句子翻译中的漏译现象,参与者也被要求在译文中短语之间标记缺口,
即译文中的每对短语之间都有两个“GAP标记,一个在短语前面,一个在短语后
面,与单词级类似。
134 Chapter 4. 翻译质量评价 肖桐 朱靖波
3. 句子级质量评估
迄今为止,质量评估的大部分工作都集中在句子层次的预测上,这是因为多数
情况下机器翻译系统的处理都是逐句进行,系统用户也总是每次翻译一个句子或是
以句子为单位组成的文本块(段落、文档等)因此以句子作为质量评估的基本单元
是很自然的。
子级量评目标成能映译子整质量
——
以是
离散型的表示某种质量等级的标签,也可以是连续型的基于评分的标签。虽然以不
同的标准进行评估,同一个译文句子的质量标签可能有所不同,但可以肯定的是句
子的最终质量绝不是句子中单词质量的简单累加。因为与词级的质量评估相比,句
子级质量评估也会关注是否保留源句的语义、译文的语义是否连贯、译文中的单词
顺序是否合理等因素。
句子级质量系统需要根据某种评价标准,通过建立预测模型来生成一个反映句
子质量的标签。人们可以根据句子翻译的目的、后编辑的工作难度、是否达到发表
要求或是是否能让非母语者读懂等各个角度、各个标准去设定句子级质量评估的标
准。句子级质量评估任务有多种形式:
区分“人工翻译”和“机器翻译”在早期的工作中,研究人员试图训练一个
够区人工翻译机器翻译的二类器完成子级的质评估
[186]
,将分类
器判断为“人工翻译”的机器译文视为优秀的译文,将被分类器判断为“机器
翻译”的机器译文视为较差的译文。一方面,这种评估方式不够直观,另一方
面,这种评估方式并不十分准确,因为通过人工比对发现很多被判定为“机器
翻译”的译文具有与人们期望的人类翻译相同的质量水平。
预测反映译文句子质量的“质量标签”在同一时期,研究人员们也尝试使用人工
为机器译文分配能够反映译文质量的标签
[187]
例如“不可接受”“一定程度上
可接受”“可接受”“理想”等类型的质量标签,同时将获取机器译文的质量
标签作为句子级质量评估的任务目标。
预测译文句子的相对排名当相对排序(详见4.2.2节)的译文评价方法被引入后,
给出机器译文的相对排名成为句子级质量评估的任务目标。
预测译文句子的后编辑工作量。在最近的研究中,句子级的质量评估一直在尝试
各种类型的离散或连续的后编辑标签。例如,通过测量以秒为单位的后编辑时
间对译文句子进行评分;通过测量预测后编辑过程所需的击键数对译文句子进
行评分;通过计算人工译后错误率Human Translation Error RateHTER
在后编辑过程中编辑(插入//替换)数量与参考翻译长度的占比率对译文
句子进行评分。HTER 的计算公式为:
HTER =
编辑操作数目
翻译后编辑结果长度
(4.20)
4.4 无参考答案的自动评价 135
这种质量评估方式往往以单词级质量评估为基础,在其结果的基础上进行
计算。以实例4.8中词级质量评估结果为例,与编辑后结果相比较,机器翻译译
文中有四处漏译(MitkönnenSieeinzelne、三处误译(dem
Scharfzeichnerscharfzeichnen分别被误译为DerSchärfen-Werkezug
Schärfer一处多译erscheint因而需要进行 4 次插入操作、3 次替换操
作和 1 次删除操作,而最终译文长度为 12则有 HTER = (4+3+1)/12 = 0.667
需要注意的是,即便这种评估方式以单词级质量评估为基础,也不意味这句子
级质量评估只是在单词级质量评估的结果上通过简单的计算来获得其得分,
实际研究中,常将其视为一个回归问题,利用大量数据学习其评分规则。
4. 文档级质量评估
文档级质量评估的主要目的是对机器翻译得到的整个译文文档进行打分。文档
级质量评估中,“文档”很多时候并不单单指一整篇文档,而是指包含多个句子的文
本,例如包含 3 5 个句子的段落或是像新闻文章一样的长文本。
传统的机器翻译任务中,往往以一个句子作为输入和翻译的单元,而忽略了文
档中句子之间的联系,这可能会使文档的论述要素受到影响,最终导致整个文档的
语义不连贯。如实例4.10所示,在第二句中he原本指代第一句中的“housewife
这里出现了错误,但这种错误在句子级的质量评估中并不能被发现。
实例 4.10 文档级质量评估任务
上文信息:A housewife won the first prize in the supermarket’s anniversary
celebration .
机器译文:A few days ago, he contacted the News Channel and said that the
supermarket owner refused to give him the prize .
在文档级质量评估中,有两种衡量文档译文的质量的方式:
阅读理解测试得分情况。以往衡量文档译文质量的主要方法是采用理解测试
[188]
即利用提前设计好的与文档相关的阅读理解题目(包括多项选择题类型和问答
题类型)对母语为目标语言的多个测试者进行测试,将代表测试者在给定文档
上的问卷中的所有问题所得到的分数作为质量标签。
后编辑工作量最近的研究工作中,多是采用对文档译文进行后编辑的工作量
评估文档译文的质量。为了准确获取文档后编辑的工作量,两阶段后编辑方法
被提出
[189]
即第一阶段对文档中的句子单独在无语境情况下进行后编辑,第二
阶段将所有句子重新合并成文档后再进行后编辑。两阶段中后编辑工作量的总
和越多,意味着文档译文质量越差。
在文档级质量评估任务中,需要对译文文档做一些更细粒度的注释,注释内容
包括错误位置、错误类型和错误的严重程度,最终在注释的基础上对译文文档质量
136 Chapter 4. 翻译质量评价 肖桐 朱靖波
进行评估。
与更细粒度的词级和句子级的质量评价相比,文档级质量评估更加复杂。其难
点之一在于文档级的质量评估过程中需要根据一些主观的质量标准去对文档进行评
分,例如在注释的过程中,对于错误的严重程度并没有严格的界限和规定,只能靠
评测人员主观判断,这就意味着随着出现主观偏差的注释的增多,文档级质量评估
的参考价值会大打折扣。另一方面,根据所有注释(错误位置、错误类型及其严重程
度)对整个文档进行评分本身就具有不合理性,因为译文中有些在抛开上下文语境
时可以并判定为“翻译得不错的”单词和句子,一旦被放在上下文语境中就可能变
得不合理,而某些在无语境条件下看起来翻译得“糟糕透了”的单词和句子,一旦被
放在文档中的语境中可能会变得恰到好处。此外,构建一个质量评测模型势必需要
大量的标注数据,而文档级质量评测所需要的带有注释的数据的获取代价相当高。
实际上,文档级质量评估与其它文档级自然语言处理任务面临的问题是一样的。
由于数据稀缺,无论是系统研发,还是结果评价都面临很大挑战。这些问题也会在
本书的第十六章和第十七章进行讨论。
4.4.2 构建质量评估模型
不同于有参考答案的自动评价,质量评估方法的实现较为复杂。质量评估可以
被看作是一个统计推断问题,即:如何根据以往得到的经验对从未见过的机器译文
的质量做出预测。从这个角度说,质量评估和机器翻译问题一样,都需要设计模型
进行求解,而无法像 BLEU 计算一样直接使用指标性的公式计算就能得到结果。
实际上,质量评估的灵感最初来源于语音识别中的置信度评价,所以最初研究
人员也尝试通过翻译模型中的后验概率来直接评价翻译质量
[190]
,然而仅仅依靠概
值作为评价标准显然是远远不够的,其效果也让人大失所望。之后,质量评估被定
义为一个有监督的机器学习问题。这也形成了质量评估的新范式:使用机器学习算
法利用句子的某种表示对译文质量进行评价。
研究人员将质量评估模型的基本框架设计为两部分:
表示/特征学习模块:用于在数据中提取能够反映翻译结果质量的“特征”
质量评估模块:基于句子的表示结果,利用机器学习算法预测翻译结果的质量。
在传统机器学习的观点下,句子都是由某些特征表示的。因此需要人工设计能
够对译文质量评估有指导性作用的特征
[191, 192, 193, 194, 195]
,常用的特征有:
复杂度特:反映了翻译一个源文的难易程度,翻译难度越大,译文质量低的
可能性就越大;
流畅度特征:反映了译文的自然度、流畅度、语法合理程度;
置信度特征:反映了机器翻译系统对输出的译文的置信程度;
充分度特征反映了源文和机器译文在不同语言层次上的密切程度或关联程度。
4.4 无参考答案的自动评价 137
随着深度学习技术的发展,另一种思路是使用表示学习技术生成句子的分布式
表示,并在此基础上利用神经网络自动提取高度抽象的句子特征
[196, 197, 198]
这样就避
免了人工设计特征所带来的时间以及人工代价,同时表示学习所得到的分布式表示
可以涵盖更多人工设计难以捕获到的特征,更加全面地反映句子的特点,因此在质
量评估任务上也取得了很好的效果
[199, 200, 201, 202, 203]
比如,最近的一些工作中大量使用
了神经机器翻译模型来获得双语句子的表示结果,并用于质量评估
[204, 205, 206, 207]
这样
做的好处在于,质量评估可以直接复用机器翻译的模型,从某种意义上降低了质量
评估系统开发的代价。此外,随着近几年各种预训练模型的出现,使用预训练模型
来获取用于质量评估的句子表示也成为一大流行趋势,这种方法大大减少了质量评
估模型自身的训练时间,在该领域内的表现也十分亮眼
[208, 209, 210]
关于表示学习、神
经机器翻译、预训练模型的内容在第九章和第十章会有进一步介绍。
在得到句子表示之后,可以使用质量评估模块对译文质量进行预测。质量评估
模型通常由回归算法或分类算法实现:
句子级和文档级质量评估目前大多通过回归算法实现。由于在句子级和文档级
的质量评估中,标签是使用连续数字(得分情况)表示的,因此回归算法是最合
适的选择。最初的工作中,研究人员们多采用传统的机器学习回归算法
[191, 194, 211]
而近年来,研究人员则更青睐于使用神经网络方法进行句子级和文档级质量评
估;
单词级和短语级质量评估多由分类算法实现。在单词级质量评估任务中,需要
对每个位置的单词标记OK”或BAD这对应了经典的二分类问题,因此
可以使用分类算法对其进行预测。自动分类算法在第三章已经涉及,质量评估
中直接使用成熟的分类器即可。此外,使用神经网络方法进行分类也是不错的
选择。
值得一提的是,近年来的研究工作中,模型集成已经成为了提高质量评估模型
一,使
定,性,
[197, 206, 207, 208, 212]
4.4.3 质量评估的应用场景
很多情况下参考答案是很难获取的,例如,在很多人工翻译生产环节中,译员的
任务就是“创造”翻译。如果已经有了答案,译员根本不需要工作,也谈不上应用机
器翻译技术了。这时更多的是希望通过质量评估帮助译员有效地选择机器翻译结果。
质量评估的应用场景还有很多,例如:
判断人工后编辑工作量人工后编辑工作中有两个不可避免的问题:1)待编辑
的机器译文是否值得改?2待编辑的机器译文需要修改哪里?对于一些质量
138 Chapter 4. 翻译质量评价 肖桐 朱靖波
较差的机器译文来说,人工重译远远比修改译文的效率高,后编辑人员可以借
助质量评估系统提供的指标筛选出值得进行后编辑的机器译文,另一方面,
量评估模型可以为每条机器译文提供错误内容、错误类型、错误严重程度的注
释,这些内容将帮助后编辑人员准确定位到需要修改的位置,同时在一定程度
上提示后编辑人员采取何种修改策略,势必能大大减少后编辑的工作内容。
自动识别并更正翻译错误质量评估和自动后编辑Automatic Post-editingAPE
也是很有潜力的应用方向。因为质量评估可以预测出错的位置,进而可以使用
自动方法修正这些错误。但是,在这种应用模式中,质量评估的精度是非常关
键的,因为如果预测错误可能会产生错误的修改,甚至带来整体译文质量的下
降。
辅助外语交流和学习例如,在很多社交网站上,用户会利用外语进行交流。
量评估模型可以提示该用户输入的内容中存在的用词、语法等问题,这样用户
可以重新对内容进行修改。甚至质量评估可以帮助外语学习者发现外语使用中
的问题,例如,对于一个英语初学者,如果能提示他/她写的句子中的明显错误,
对他/她的外语学习是非常有帮助的。
需要注意的是,质量评估的应用模式还没有完全得到验证。这一方面是由于,
量评估的应用非常依赖与人的交互过程。但是,改变人的工作习惯是很困难的,因
此质量评估系统在实际场景中的应用往往需要很长时间,或者说人也要适应质量评
估系统的行为。另一方面,质量评估的很多应用场景还没有完全被发掘出来,需要
更长的时间进行探索。