116 Chapter 4. 翻译质量评价 肖桐 朱靖波
4.3 有参考答案的自动评价
人工评价费事费力,同时具有一定的主观性,甚至不同人在不同时刻面对同一篇
文章的理解都会不同。为了克服这些问题,另一种思路是将人类专家翻译的结果看
作是参考答案,将译文与答案的近似程度作为评价结果。即译文与答案越接近,评价
结果越好;反之,评价结果较差。这种评价方式叫做自动评价Automatic Evaluation
自动评价具有速度快,成本低、一致性高的优点,因此自动评价是也是机器翻译系
统研发人员所青睐的方法。
随着评价技术的不断发展,自动评价结果已经具有了比较好的指导性,可以帮
助使用者快速了解当前译文的质量。在机器翻译领域,自动评价已经成为了一个重
要的研究分支。至今,已经有不下几十种自动评价方法被提出。这里无法对这些方
法一一列举,为了便于读者理解后续章节中涉及到的自动评价方法,这里仅对一些
代表性的方法进行简要介绍。
4.3.1 基于词串比对的方法
这种方法比较关注译文单词及 n-gram 的翻译准确性。其思想是将译文看成是符
号序列,通过计算参考答案和机器译文间的序列相似性来评价机器翻译的质量。
1. 基于距离的方法
基于距离的自动评价方法的基本思想是:将机器译文转化为参考答案所需要的
最小编辑步骤数作为译文质量的度量,基于此类思想的自动评价方法主要有单词错误
Word Error RateWER
[142]
与位置无关的单词错误率Position-independent word
Error RatePER
[143]
翻译错误率Translation Error RateTER
[144]
等。下面介绍
其中比较有代表性的方法
——
翻译错误率,即 TER
TER 是一种典型的基于距离的评价方法,通过评定机器译文的译后编辑工作
来衡量机器译文质量。在这里“距离”被定义为将一个序列转换成另一个序列所需
要的最少编辑操作次数,操作次数越多,距离越大,序列之间的相似性越低;相反距
离越小,表示一个句子越容易改写成另一个句子,序列之间的相似性越高。TER 使
用的编辑操作包括:增加、删除、替换和移位。其中增加、删除、替换操作计算得到
的距离被称为编辑距离。TER 根据错误率的形式给出评分:
score =
edit(o,g)
l
(4.3)
其中,edit(o, g) 表示系统生成的译文 o 和参考答案 g 之间的距离,l 是归一化因子,
常为参考答案的长度。在距离计算中所有的操作的代价都为 1在计算距离时,优先
考虑移位操作,再计算编辑距离(即增加、删除和替换操作的次数)。直到增加、
位操作无法减少编辑距离时,将编辑距离和移位操作的次数累加得到 TER 计算的距
离。
4.3 有参考答案的自动评价 117
实例 4.1 机器译文:A cat is standing in the ground .
参考答案:The cat is standing on the ground .
在这个实例中,将机器译文序列转换为参考答案序列,需要进行两次替换操作,
将“A”替换为“The,将“in”替换为“on。所以 edit(o,g) = 2,归一化因子 l
参考答案的长度 8(包括标点符号),所以该机器译文的 TER 结果为 2/8
PER WER 基本思想 TER 同,这三种方法的主要区别在于“错误”
的定义和考虑的操作类型略有不同。WER 使用的编辑操作包括:增加、删除、替换,
由于没有移位操作,当机器译文出现词序问题时,会发生多次替代,因而一般会低
估译文质量;而 PER 只考虑增加和删除两个动作,计算两个句子中出现相同单词的
次数,根据机器译文与参考答案的长度差距,其余操作无非是插入词或删除词,而
忽略了词序的错误,因此这样往往会高估译文质量。
2. 基于 n
n
n-gram 的方法
BLEU 是目前使用最广泛的自动评价指标。BLEU Bilingual Evaluation Under-
study 缩写,由 IBM 的研究人员在 2002 提出
[128]
。通过采用 n-gram 匹配的方式
评定机器翻译结果和参考答案之间的相似度,机器译文越接近参考答案就认定它的
质量越高。n-gram 是指 n 个连续单词组成的单元,称 n 元语法单元(见第三章)
n 越大表示评价时考虑的匹配片段越大。
BLEU 虑待 n-gram 率,
n
n
n-gram 准确率n-gram Precision)。其计算方法如下:
P
n
=
count
hit
count
output
(4.4)
其中,count
hit
表示机器译文中 n-gram 在参考答案中命中的次数,count
output
表示机
器译文中总共有多少 n-gram为了避免同一个词被重复计算,BLEU 定义中使
了截断的方式定义 count
hit
count
output
实例 4.2 机器译文:the the the the
参考答案:The cat is standing on the ground .
在引入截断方式之前,该机器译文的 1-gram 准确率为 4/4 = 1,这显然是不合理
的。在引入截断的方式之后,the在译文中出现 4 次,在参考答案中出现 2 次,
断操作则是取二者的最小值,即 count
hit
= 2count
output
= 4该译文的 1-gram 准确率
2/4
N 表示最大 n-gram 的大小,则译文整体的准确率等于各 n-gram 的加权平均:
P
avg
= exp(
N
X
n=1
w
n
·log P
n
) (4.5)
118 Chapter 4. 翻译质量评价 肖桐 朱靖波
但是,该方法更倾向于对短句子打出更高的分数。一个极端的例子是译文只有
很少的几个词,但是都命中答案,准确率很高可显然不是好的译文。因此,BLEU
短句惩罚因子Brevity PenaltyBP)的概念,对短句进行惩罚:
BP =
(
1 c > r
exp(1
r
c
) c r
(4.6)
其中,c 表示机器译文的句子长度,r 表示参考答案的句子长度。最终 BLEU 的计算
公式为:
BLEU = BP ·exp(
N
X
n=1
w
n
·logP
n
) (4.7)
实际上,BLEU 的计算也是一种综合考虑准确率Precision召回率Recall
方法。公式中,exp(
N
P
n=1
w
n
·logP
n
) 是一种准确率的表示。BP 本是一种召回率的度量,
它会惩罚过短的结果。这种设计同分类系统中评价指标 F1 值是有相通之处的
[145]
从机器翻译的发展来看,BLEU 意义在于它给系统研发人员提供了一种简单、
高效、可重复的自动评价手段,在研发机器翻译系统时可以不需要依赖人工评价。
时,BLEU 也有很多创新之处,包括引入 n-gram 的匹配,截断计数和短句惩罚等等,
NIST 等很多评价指标都是受到 BLEU 的启发。此外,BLEU 本身也有很多不同的实
现方式,包括 IBM-BLEU
[128]
NIST-BLEU
2
BLEU-SBP
[146]
ScareBLEU
[147]
等,使用
不同实现方式得到评价结果会有差异。因此在实际使 BLEU 行评价时需要确认
其实现细节,以保证结果与相关工作评价要求相符。
还需要注意的是,BLEU 的评价结果与所使用的参考答案数量有很大相关性。
果参考答案数量多,n-gram 匹配的几率变大,BLEU 的结果也会偏高。同一个系统,
在不同数量的参考答案下进行 BLEU 评价,结果相差 10 个点都十分正常。此外,
虑测试的同源性等因素,相似系统在不同测试条件下的 BLEU 结果差异可能会更大,
这时可以采用人工评价的方式以得到更准确的评价结果。
虽然 BLEU 被广泛使用,但也并不完美,甚至经常被人诟病。比如,它需要依赖
参考答案,而且评价结果有时与人工评价不一致,同 BLEU 价只是单纯地从词
串匹配的角度思考翻译质量的好坏,并没有真正考虑句子的语义是否翻译正确。但
是,毫无疑问,BLEU 仍然是机器翻译中最常用的评价方法。在没有找到更好的替代
方案之前,BLEU 还是机器翻译研究中最重要的评价指标之一。
2
NIST-BLEU 是指美国国家标准与技术研究院NIST开发的机器翻译评价工具 mteval 中实现的一
BLEU 计算的方法。
4.3 有参考答案的自动评价 119
4.3.2 基于词对齐的方法
基于词对齐的方法,顾名思义就是根据参考答案中的单词与译文中的单词之间
的对齐关系对机器翻译译文进行评价。词对齐的概念也被用于统计机器翻译的建模
(第五章),这里借用了相同的思想来度量机器译文与参考答案之间的匹配程度。
基于 n-gram 匹配的评价方法中(如 BLEUBP 以起到一些度量召回率的作用,
但是这类方法并没有对召回率进行准确的定义。与其不同的是,基于词对齐的方法
在机器译文和参考答案的单词之间建立一对一的对应关系,这种评价方法在引入准
确率的同时还能显性引入召回率作为评价所考虑的因素。
在基于词对齐的自动评价方法中,一种典型的方法 Meteor。该方法通过计
精确的单词到单词Word-to-Word的匹配来度量一个译文的质量
[148]
并且在精确匹
配之外,还引入了“波特词干”匹配和“同义词”匹配。在下面的内容中,将利用实
例对 Meteor 方法进行介绍。
实例 4.3 机器译文:Can I have it like he ?
参考答案:Can I eat this can like him ?
Meteor 方法中,首先在机器译文与参考答案之间建立单词的对应关系,再根
据其对应关系计算准确率和召回率。
在机器译文与参考答案之间建立单词之间的对应关系。单词之间的对应关系在
建立过程中主要涉及三个模型,在对齐过程中依次使用这三个模型进行匹配:
精确模型Exact Model精确模型在建立单词对应关系时,要求机器译
文端的单词与参考答案端的单词完全一致,并且在参考答案端至多有 1
词与器译的单对应,会将视为种对况。对
4.3,使用精确模型,共有两种匹配结果,如图4.2所示。
机器译文:
Can I
have
it
like he
?
参考答案:
Can I
eat
this
can
like
him
?
(a) 精确匹配词对齐-1
机器译文:
Can I
have
it
like he
?
参考答案:
Can I
eat
this
can
like
him
?
(b) 精确匹配词对齐-2
4.2 精确匹配词对齐
120 Chapter 4. 翻译质量评价 肖桐 朱靖波
“波特词干”模型Porter Stem Model。该模型在精确匹配结果的基础上,
对尚未对齐的单词进行基于词干的匹配,只需机器译文端单词与参考答案
端单词的词干相同即可,如上文中的hehim对于图4.2中显示的
词对齐结果,再使用“波特词干”模型,得到如图4.3所示的结果。
机器译文:
Can I
have
it
like he
?
参考答案:
Can I
eat
this
can
like
him
?
机器译文:
Can I
have
it
like he
?
参考答案:
Can I
eat
this
can
like
him
?
4.3 “波特词干”匹配词对齐
“同义词”模型WN Synonymy Model该模型在前两个模型匹配结果的
基础上,对尚未对齐的单词进行同义词的匹配,即基于 WordNet 词典匹配
机器译文与参考答案中的同义词。如实例4.3中的eathave4.4
出了一个真实的例子。
机器译文:
Can I
have
it
like he
?
参考答案:
Can I
eat
this
can
like
him
?
机器译文:
Can I
have
it
like he
?
参考答案:
Can I
eat
this
can
like
him
?
4.4 “同义词”匹配词对齐
经过上面的处理,可以得到机器译文与参考答案之间的单词对齐关系。下一步
需要从中确定一个拥有最大的子集的对齐关系,即机器译文中被对齐的单词个
数最多的对齐关系。但是在上例中的两种对齐关系子集基数相同,这种情况下,
需要选择一个对齐关系中交叉现象出现最少的对齐关系。于是,最终的对齐关
系如图4.5所示。
4.3 有参考答案的自动评价 121
机器译文:
Can I
have
it
like he
?
参考答案:
Can I
eat
this
can
like
him
?
4.5 确定最终词对齐
在得到机器译文与参考答案的对齐关系后,需要基于对齐关系计算准确率和召
回率。
准确率:机器译文中命中单词数与机器译文单词总数的比值。即:
P =
count
hit
count
candidate
(4.8)
召回率:机器译文中命中单词数与参考答案单词总数的比值。即:
R =
count
hit
count
reference
(4.9)
最后,计算机器译文的得分。利用调和均值Harmonic-mean将准确率和召回
率结合起来,并加大召回率的重要性将其权重调大,例如将召回率的权重设置
9
F
mean
=
10P R
R + 9P
(4.10)
在上文提到的评价指标中,无论是准确率、召回率还是 F
mean
都是基于单个词
汇信息衡量译文质量,而忽略了语序问题。为了将语序问题考虑进来,Meteor
虑更长的匹配:将机器译文按照最长匹配长度分块,由于“块数”较多的机器译文
与参考答案的对齐更加散乱,意味着其语序问题更多,因此 Meteor 会对这样的译文
给予惩罚。例如图4.5显示的最终词对齐结果中,机器译文被分为了三个“块”—
Can I have itlike he”在这种情况下,看起来上例中的准确率、召回率都还
不错,但最终会受到很严重的惩罚。这种罚分机制能够识别出机器译文中的词序问
题,因为当待测译文词序与参考答案相差较大时,机器译文将会被分割得比较零散,
这种惩罚机制的计算公式如式(4.11),其中 count
chunks
表示匹配的块数。
Penalty = 0.5 ·
count
chunks
count
hit
3
(4.11)
Meteor 评价方法的最终评分为:
score = F
mean
·(1 Penalty) (4.12)
122 Chapter 4. 翻译质量评价 肖桐 朱靖波
Meteor 方法是经典的自动评价方法之一。它的创新点在于引入了词干匹配和
义词匹配,扩大了词汇匹配的范围。Meteor 方法被提出后,很多人尝试对其进行
改进,使其评价结果与人工评价结果更相近。例如 Meteor-next Meteor 的基础上
增加释义匹配器Paraphrase Matcher利用该匹配器能够捕获机器译文中与参考答
意思近的语,从而短语面进配。此这种还引可调
Tunable Weight Vector),用于调节每个匹配类型的相应贡
[149]
Meteor 1.3
Meteor 的基础上增加了改进的文本规范器Text Normalizer)、更高精度的释义匹配
以及区分内容词和功能词等指标,其中文本规范器能够根据一些规范化规则,将机
器译文中意义等价的标点减少到通用的形式。而区分内容词和功能词则能够得到更
为准确的词汇应关
[150]
Meteor Universial 通过机器学习法学习不同语言的
可调权值,在对低资源语言进行评价时可对其进行复用,从而实现对低资源语言的
译文更准确的评价
[151]
由于召回率反映参考答案在何种程度上覆盖目标译文的全部内容,而 Meteor
评价过程中显式引入召回率,所以 Meteor 的评价与人工评价更为接近。 Meteor
法需要借助同义词表、功能词表等外部数据,当外部数据中的目标词对应不正确或
缺失相应的目标词时,评价水准就会降低。特别是,针对汉语等与英语差异较大的
语言,使用 Meteor 方法也会面临很多挑战。不仅如此,超参数的设置和使用,对于
评分也有较大影响。
4.3.3 基于检测点的方法
基于词串比对和基于词对齐的自动评价方法中提出的 BLEUTER 等评价指标
可以对译文的整体质量进行评估,但是缺乏对具体问题的细致评价。很多情况下,
究人员需要知道系统是否能够处理特定类型的翻译问题,而不是得到一个笼统的评
价结果。基于检测点的方法正是基于此想法
[152]
。这种评价方法的优点在于对机器翻
个总翻译估,
方便比较不同翻译模型的性能。这种方法也被多次用于机器翻译比赛的译文质量评
估。
基于检测点的评价根据事先定义好的语言学检测点对译文的相应部分进行打分。
如下是几个英中翻译中的检测点实例:
实例 4.4 They got up at six this morning .
他们/今天/早晨/六点钟/起床/
检测点:时间词的顺序
实例 4.5 There are nine cows on the farm .
农场//////
检测点:量词“头”
实例 4.6 His house is on the south bank of the river .
4.3 有参考答案的自动评价 123
//房子////南岸/
We keep our money in a bank .
我们//一家/银行/存钱/
检测点:bank 的多义翻译
该方法的关键在于检测点的获取。有工作曾提出一种从平行双语句子中自动提
取检查点的方法
[153]
,借助大量的双语词对齐平行语料,利用自然语言处理工具对其
进行词性标注、句法分析等处理,利用预先构建的词典和人工定义的规则,识别语
料中不同类别的检查点,从而构建检查点数据库。其中,将检查点分别设计为单词
级(如介词、歧义词等)、短语级(如固定搭配)、句子级(特殊句型、复合句型等)
三个层面,在对机器翻译系统进行评价时,在检查点数据库中分别选取不同类别检
查点对应的测试数据进行测试,从而了解机器翻译系统在各种重要语言现象方面的
翻译能力。除此之外,这种方法也能应用于机器翻译系统之间的性能比较中,通过
为各个检查点分配合理的权重,用翻译系统在各个检查点得分的加权平均作为系统
得分,从而对机器翻译系统的整体水平作出评价。
基于检测点的评价方法的意义在于,它并不是简单给出一个分数,反而更像是
一种诊断型评估方法,能够帮助系统研发人员定位系统问题。因此这类方法更多地
使用在对机器翻译系统的翻译能力进行分析上,是对 BLEU 整体评价指标的一种
很好的补充。
4.3.4 多策略融合的评价方法
前面介绍的几种自动评价方法中,大多是从某个单一的角度比对机器译文与参
考答案之间的相似度,例如 BLEU 更关注 n-gram 是否命中、Meteor 更关注机器译文
与参考答案之间的词对齐信息、WERPER TER 等方法只关注机器译文与参考译
文之间的编辑距离,此外还有一些方法比较关注机器译文和参考译文在语法、句法
方面的相似度。但无一例外的是,每种自动评价的关注点都是单一的,无法对译文
质量进行全面、综合的评价。为了克服这种限制,研究人员们提出了一些基于多策
略融合的译文质量评估方法,以期提高自动评价与人工评价结果的一致性。
基于策略融合的自动评价方法往往会将多个基于词汇、句法和语义的自动评价
方法融合在内,其中比较核心的问题是如何将多个评价方法进行合理地组合。目前
提出的方法中颇具代表性的是使用参数化方式和非参数化方式对多种自动评价方法
进行筛选和组合。
参数化组合方法的实现主要有两种方式:一种方式是广泛使用不同的译文质量
评价作为特征,借助回归算法实现多种评价策略的融合
[154, 155]
;另一种方式则是对各
种译文质量评价方法的结果进行加权求和,并借助机器学习算法更新内部的权重参
数,从而实现多种评价策略的融合
[156]
非参数化组合方法的思想与贪心算法异曲同工:以与人工评价的相关度为标准,
将多个自动评价方法降序排列,依次尝试将其加入最优策略集合中,如果能提高最
124 Chapter 4. 翻译质量评价 肖桐 朱靖波
优策略集合的“性能”则将该自动评价方法加入最优策略集合中,否则不加入。
中最优策略集合的“性能”用 QUEEN
[157]
。该方法是首次尝试使用非参数的组
合方式将多种自动评价方法进行融合,也不可避免地存在一些瑕疵。一方面在评价
最优策略集合性能时,对于一个源文需要至少三个参考答案;另一方面,这种“贪
心”的组合策略很有可能会得到局部最优的组合。
与单一的译文评价方法相比,多策略融合的评价方法能够对机器译文从多角度
进行综合评价,这显然是一个模拟人工评价的过程,因而多策略融合的评价结果也
与人工评价结果更加接近。但是对于不同的语言,多策略融合的评价方法需要不断
调整最优策略集合或是调整组合方法内部的参数才能达到最佳的评价效果,这个过
程势必要比单一的自动评价方法更繁琐些。
4.3.5 译文多样性
在自然语言中,由于句子的灵活排序和大量同义词的存在,导致同一个源语言
句子可能对应几百个合理的目标语言译文,甚至更多。然而上文提到的几种人工评
价仅仅比较机器译文与有限数量的参考答案之间的差距,得出的评价结果往往会低
估了机器译文的质量。为了改变这种窘况,比较直观的想法是增大参考答案集或是
直接比较机器译文与参考答案在词法、句法和语义等方面的差距。
1. 增大参考答案集
BLEUMeteorTER 等自动评价方法的结果往往与人工评价结果存在差距。
些自动评价方法直接比对机器译文与有限数量的参考答案之间的“外在差异”由于
参考答案集可覆盖的人类译文数量过少,当机器译文本来十分合理但却未被包含在
参考答案集中时,其质量就会被过分低估。
针对这个问题,HyTER 自动评价方法致力于得到所有可能译文的紧凑编码,从
而实现自动评价过程中访问所有合理的译文
[158]
这种评价方法的原理非常简单直观:
通过注释工具标记出一个短语的所有备选含义(同义词)并存储在一起作为一
个同义单元。可以认为每个同义单元表达了一个语义概念。在生成参考答案时,
可以通过对某参考答案中的短语用同义单元进行替换生成一个新的参考答案。
例如,将中文句子“对提案的支持率接近于 0”翻译为英文,同义单元有以下
几种:
[THE-SUPPORT-RATE]
<the level of approval; the approval level; the approval rate ; the support rate>
[CLOSE-TO]
<close to; about equal to; practically>
通过已有同义单元和附加单词的组合用于覆盖更大的语言片段。在生成参考答
案时就是采用这种方式不断覆盖更大的语言片段,直到将所有可能的参考答案
覆盖去。例如可以将短语 [THE-SUPPORT-RATE] the proposal组合
4.3 有参考答案的自动评价 125
[THE-SUPPORT-RATE] for the proposal
利用同义单元的组合将所有所有合理的人类译文都编码出来。将中文句子“对
提案的支持率接近于 0”翻译为英文,图4.6展示了其参考答案的编码结果。
the level of approval
the approval rate
the approval level
for
the proposal
was
pratically
close to
about equal to
zero
4.6 HyTER 中参考答案集的表示方式
从图4.6中可以看出,HyTER 方法通过构造同义单元的方式,可以列举出译文中
每个片段的所有可能的表达方式,从而增大参考答案的数量,图4.6中的每一条路
都代表一个参考答案。但是这种对参考答案集的编码方式存在问题,同义单元之间
的组合往往存在一定的限制关系
[159]
,使 HyTER 法会导致参考答案集中包含
错误的参考答案。
实例 4.7 将中文“市政府批准了一项新规定”分别翻译为英语和捷克语,使用 HyTER
构造的参考答案集分别如图4.7(a) (b) 所示
[159]
the
city council
local government
approved
gave blessing to
agreed with
a new
regulation
decree
directive
(a) 英语参考答案集表示
městská rada
zastupitelstvo města
schválila
požehnala
souhlasila s
nový
předpis
směrnici
nařízení
(b) 捷克语参考答案集表示
4.7 使用 HyTER 构造的参考答案集
但是在捷克语中主语“městská rada”或是“zastupitelstvo města”的性别必须
动词来反映,那么上述捷克语的参考答案集中有部分存在语法错误。为了避免此类
现象的出现,研究人员在同义单元中加入了将同义单元组合在一起必须满足的限制
条件
[159]
,从而在增大参考答案集的同时确保了每个参考答案的准确性
将参考答案集扩大后,可以继续沿用 BLEU NIST 基于 n 元语法的方法
行自动评价,但是传统方法往往会忽略多重参考答案中的重复信息,于是对每个 n
元语法进行加权的动评价方法被提出
[160]
。该方法根据每个 n 语法单元的长度、
在参考答案集中出现的次数、被虚词(如thebya”等)分开后的分散度等
126 Chapter 4. 翻译质量评价 肖桐 朱靖波
方面,确定其在计算最终分数时所占的权重。 BLEU 方法为例(4.3.1节)可以将
(4.7)改写为:
BLEU = BP ·exp(
N
X
n=1
w
n
·log(I
n
·P
n
)) (4.13)
I
n
= n-gram
diver
·log(n +
M
count
ref
) (4.14)
其中,I
n
即为为某个 n 元语法单元分配的权重,M 为参考答案集中出现该 n-gram
的参考答案数量,count
ref
为参考答案集大小。n-gram
diver
为该 n-gram 的分散度,
n-gram 种类数量与语法单元总数的比值计算。
需要注意的是,HyTER 方法对参考译文的标注有特殊要求,因此需要单独培训
译员并开发相应的标注系统。这在一定程度上也增加了该方法被使用的难度。
2. 利用分布式表示进行质量评价
词嵌入Word Embedding技术是近些年自然语言处理中的重要成果,其思想是
把每个单词映射为多维实数空间中的一个点(具体表现为一个实数向量)这种技术
也被称作单词的分布式表示Distributed Representation在这项技术中,单词之间的
关系可以通过空间的几何性质进行刻画,意义相近的单词之间的欧式距离也十分相
近(单词分布式表示的具体内容,将在书的第九章 详细介绍,在此不再赘述)
受词嵌入技术的启发,研究人员尝试借助参考答案和机器译文的分布式表示来
进行译文质量评价,为译文质量评价提供了新思路。在自然语言的上下文中,表示
是与每个单词、句子或文档相关联的数学对象。这个对象通常是一个向量,其中每
个元素的值在某种程度上描述了相关单词、句子或文档的语义或句法属性。基于这
个想法,研究人员提出了布式表示评价Distributed Representations Evaluation
MetricsDREEM
[161]
这种方法将单词或句子的分布式表示映射到连续的低维空间,
发现在该空间中,具有相似句法和语义属性的单词彼此接近,类似的结论也出现在
相关工作中,如参考文献 [72, 162, 163] 所示。而这个特点可以被应用到译文质量
估中。
4.2 常见的单词及句子分布表示
单词分布表示 句子分布表示
One-hot 词向量 RAE 编码
[162]
Word2Vec 词向量
[164]
Doc2Vec 向量
[165]
Prob-fasttext 词向量
[166]
ELMO 预训练句子表示
[167]
GloVe 词向量
[168]
GPT 句子表示
[126]
ELMO 预训练词向量
[167]
BERT 预训练句子表示
[125]
BERT 预训练词向量
[125]
Skip-thought 向量
[169]
4.3 有参考答案的自动评价 127
DREEM 中,分布式表示的选取是一个十分关键的问题,理想的情况下,分布
式表示应该涵盖句子在词汇、句法、语法、语义、依存关系等各个方面的信息。目前
常见的分布式表示方式如表4.2所示。除此之外,还可以通过词袋模型、循环神经
络等将词向量表示转换为句子向量表示。
DREEM 方法中选取了能够反映句子中使用的特定词汇的 One-hot 向量、能够反
映词汇信息的词嵌入向量
[72]
、能够反映句子的合成语义信息递归自动编码Recur-
sive Auto-encoder EmbeddingRAE这三种表示级联在一起,最终形成句子的向量
表示。在得到机器译文和参考答案的上述分布式表示后,利用余弦相似度和长度惩
罚对机器译文质量进行评价。机器译文 o 和参考答案 g 之间的相似度如公式(4.15)
示,其 v
i
(o) v
i
(g) 分别是机器译文和参考答案的向量表示中的第 i 元素,N
是向量表示的维度大小。
cos(t,r) =
N
P
i=1
v
i
(o) ·v
i
(g)
s
N
P
i=1
v
2
i
(o)
s
N
P
i=1
v
2
i
(g)
(4.15)
在此基础上,DREEM 方法还引入了长度惩罚项,对与参考答案长度相差太多的
机器译文进行惩罚,长度惩罚项如公式(4.16)所示,其中 l
o
l
g
分别是机器译文和参
考答案长度:
BP =
(
exp(1 l
g
/l
o
) l
o
< l
g
exp(1 l
o
/l
g
) l
o
l
g
(4.16)
机器译文的最终得分如下,其中 α 是一个需要手动设置的参数:
score(o,g) = cos
α
(o,g) ×BP (4.17)
本质上,分布式表示是一种对句子语义的一种统计表示。因此,它可以帮助评
价系统捕捉一些从简单的词或者句子片段中不易发现的现象,进而进行更深层的句
子匹配。
DREEM 方法取得成功后,基于词嵌入的词对齐自动评价方法被提出
[170]
,该
方法中先得到机器译文与参考答案的词对齐关系后,通过对齐关系中两者的词嵌入
相似度来计算机器译文与参考答案的相似度,公式如(4.18)其中,o 是机器译文,g
是参考答案,m 表示译文 o 的长度,l 表示参考答案 g 的长度,函数 φ(o,g,i,j) 用来
计算 o 中第 i 个词和 g 中第 j 个词之间对齐关系的相似度。
ASS(o,g) =
1
m ·l
m
X
i=1
l
X
j=1
φ(o,g,i,j) (4.18)
128 Chapter 4. 翻译质量评价 肖桐 朱靖波
此外,将分布式表示与相对排序融合也是一个很有趣的想法
[171]
在这个尝试中,
分布法信息,
利用神经网络模型对多个机器译文进行排序。
在基于分布式表示的这类译文质量评价方法中,译文和参考答案的所有词汇信
息和句法语义信息都被包含在句子的分布式表示中,克服了单一参考答案的限制。
是同时也带来了新的问题,一方面将句子转化成分布式表示使评价过程变得不那么
具有可解释性,另一方面分布式表示的质量也会对评价结果有较大的影响。
4.3.6 相关性与显著性
近年来,随着多种有参考答案的自动评价方法的提出,译文质量评价已经渐渐
从大量的人力工作中解脱转而依赖于自动评价技术。然而,一些自动评价结果的可
靠性、置信性以及参考价值仍有待商榷。自动评价结果与人工评价结果的相关性以
及其自身的统计显著性,都是衡量其可靠性、置信性以及参考价值的重要标准。
1. 自动评价与人工评价的相关性
相关性
Correlation
)是统计学中的概念,当两个变量之间存在密切的依赖或制
约关系,但却无法确切地表示时,可以认为两个变量之间存在“相关关系”并往往
用“相关性”作为衡量关系密切程度的标准
[172]
。对于相关关系,虽然无法求解两个
变量之间确定的函数关系,但是通过大量的观测数据,能够发现变量之间存在的统
计规律性,而“相关性”也同样可以利用统计手段获取。
在机器译文质量评价工作中,相比人工评价,有参考答案的自动评价具有效率
高、成本低的优点,因而广受机器翻译系统研发人员青睐。在这种情况下,自动评价
结果的可信度一般取决于它们与可靠的人工评价之间的相关性。随着越来越多有参
考答案的自动评价方法的提出,“与人工评价之间的相关性”也被视为衡量一种新的
自动评价方法是否可靠的衡量标准。
很多研究工作中都曾对 BLEUNIST 等有参考答案的自动评价与人工评价的相
关性进行研究和讨论,其中也有很多工作对“相关性”的统计过程作过比较详细的
阐述。在“相关性”的统计过程中,一般是分别利用人工评价方法和某种有参考答
案的自动评价方法对若干个机器翻译系统的输出进行等级评价
[
173]
或是相对排序
[174]
从而对比两种评价手段的评价结果是否一致。该过程中的几个关键问题可能会对最
终结果产生影响。
源语言句子的选择由于机器翻译系统一般以单句作为翻译单元,因而评价过程
中涉及的源语言句子是脱离上下文语境的单句
[173]
人工评估结果的产生工评过程采用提供准高量参考答的单
评价方法,由多位评委对译文质量做出评价后进行平均作为最终的人工评价结
[173]
4.3 有参考答案的自动评价 129
自动评价中参考答案的数量在有参考答案的自动评价过程中,为了使评价结果
更加准确,一般会设置多个参考答案。参考答案数量的设置会对自动评价与人
工评价的相关性产生影响,也有很多工作对此进行了研究。例如人们发现有参
考答案的自动评价方法在区分人类翻译和机器翻译时,设置 4 个参考答案的区
分效果远远高 2 参考答案
[175]
;也有人曾专注于研究样设置参考答案数
量能够产生最高的相关性
[176]
自动评价中参考答案的质量从直觉上,自动评价中参考答案的质量一般会影响
最终的评价结果,从而对相关性的计算产生影响。然而,有相关实验表明,
要参考答案的质量不是过分低劣,很多情况下自动评价都能得到相同的评价结
[177]
目前在机器译文质量评价的领域中,有很多研究工作尝试比较各种有参考答案
的自动评价方法(主要以 BLEUNIST 等基于 n-gram 的方法为主)与人工评价方法
的相关性。整体来看,这些方法与人工评价具有一定的相关性,自动评价结果能够
较好地反映译文质量
[173, 178]
但是也有相关研究指出,不应该对有参考答案的自动评价方法过于乐观,而应该
存谨慎态度,因为目前的自动评价方法对于流利度的评价并不可靠,同时参考答案
的体裁和风格往往会对自动评价结果产生很大影响
[175]
。同时,有研究人员提出,机
器翻译研究过程中,在忽略实际示例翻译的前提下,BLEU 分数的提高并不意味着翻
译质量的真正提高,而在一些情况下,为了实现翻译质量的显著提高,并不需要提
BLEU 分数
[179]
2. 自动评价方法的统计显著性
使用自动评价的目的是比较不同系统之间性能的差别。比如,对某个机器翻译
系统进行改进后,它的 BLEU 值从 40.0% 提升到 40.5%能否说改进后的系统真的比
改进前的翻译品质更好吗?实际上,这也是统计学中经典的统计假设检验Statistical
Hypothesis Testing问题
[180]
统计假设检验的基本原理是:如果对样本总体的某种假
设是真的,那么不支持该假设的小概率事件几乎是不可能发生的;一旦这种小概率
事件在某次试验中发生了,那就有理由拒绝原始的假设。例如,对于上面提到了例
子,可以假设:
原始假设:改进后比改进前翻译品质更好;
小概率事件(备择假设):改进后和改进前比,翻译品质相同甚至更差。
统计假设检验的流程如图4.8所示。其中的一个关键步骤是检验一个样本集合
是否发生了小概率事件。但是,怎样才算是小概率事件呢?比如,可以定义概率不超
0.1 的事件就是小概率事件,甚至可以定义这个概率为 0.050.01通常,这个概
率被记为 α也就是常说的显著性水平Significance Level而显著性水平更准确的
定义是“去真错误”的概率,即:原假设为真但是拒绝了它的概率。
130 Chapter 4. 翻译质量评价 肖桐 朱靖波
某种假设
样本
观察结果
小概率事件
发生?
拒绝原假设
接受原假设
抽样 检验
4.8 统计假设检验的流程
回到机器翻译的问题中来。一个更加基础的问题是:一个系统评价结果的变化
在多大范围内是不显著的。利用假设检验的原理,这个问题可以被描述为:评价结
果落在 [ x d,x + d] 区间的置信度是 1 α换句话说,当系统性能落在 [xd,x + d]
外,就可以说这个结果与原始的结果有显著性差异。这里 x 通常是系统译文的 BLEU
计算结果,[x d, x + d] 是其对应的置信区间。 d α 有很多计算方法,比如,
果假设评价结果服从正态分布,可以简单的计算 d
d = t
s
n
(4.19)
其中,s 是标准差,n 是样本数。t 是一个统计量,它与假设检验的方式、显著性水
平、样本数量有关。
而机器翻译评价使用假设检验的另一个问题是如何进行抽样。需要注意的是,
里的样本是指一个机器翻译的测试集,因 BLEU 指标都是在整个测试集上计算
的,而非简单的通过句子级评价结果进行累加。为了保证假设检验的充分性,需要
构建多个测试集,以模拟从所有潜在的测试集空间中采样的行为。
最常用的方法是使用
Bootstrap
重采样技术
[181]
从一个固定测试集中采样不同的
句子组成不同的测试集,之后在这些测试集上进行假设检验
[182]
。此后,有工作指出
Bootstrap
重采方法在隐假设的不理之处,并提出了使用近随机
[183]
方法计算自动评价方法统计显著性
[184]
。另有研究工作着眼于研究自动评价结果差
大小、测试集规模、系统相似性等因素对统计显著性的影响,以及在不同领域的测
试语料中计算的统计显著性是否具有通用性的问题
[185]
在所有自然语言处理系统的结果对比中,显著性检验是十分必要的。很多时候
不同系统性能的差异性很小,因此需要确定一些微小的进步是否是“真”的,还是
只是一些随机事件。但是从实践的角度看,当某个系统性能的提升达到一个绝对值,
这种性能提升效果往往是显著的。比如,在机器翻译,BLEU 提升 0.5% 一般都是比
较明显的进步。也有研究对这种观点进行了论证,也发现其中具有一定的科学性
[185]
因此,在机器翻译系统研发中类似的方式也是可以采用的。