4.2 人工评价 113
4.2 人工评价
顾名思义,人工评价是指评价者根据翻译结果好坏对译文进行评价。例如,
以根据句子的忠诚度和流畅度对其进行打分,这样能够准确评定出译文是否准确
译出源文的意思以及译文是否通顺。在人工评价时,一般由多个评价者匿名对译
打分,之后综合所有评价者的评价结果给出最终的得分。人工评价可以准确反映
子的翻译质量,是最权威、可信度最高的评价方法,但是其缺点也十分明显:需要耗
费人力物力,而且评价的周期长,不能及时得到有效的反馈。因此在实际系统开
中,纯人工评价不会过于频繁地被使用,它往往和自动评价一起配合,帮助系统
发人员准确的了解当前系统的状态。
4.2.1 评价策略
合理的评价指标是人工评价得以顺利进行的基础。机器译文质量的人工评价
以追溯到 1966 年,自然语言处理咨询委员会提出可理解度Intelligibility)和忠诚度
作为机器译文质量人工评价指标
[130]
1994 年,充分Adequacy)、流畅度和信息
Informativeness成为 ARPA MT
1
的人工评价标准
[131]
此后,有不少研究者提出
了更多的机器译文质量人工评估指标,例如将清晰度Clarity连贯性Coherence
加入人工评价指标
[132]
。甚至有人将各种人工评价指标集中在一起,组成了尽可
全面的机器翻译评估框架
[133]
人工评价的策略非常多。考虑不同的因素,往往会使用不同的评价方案,比如:
是否呈现源语言文本在进行人工评价时,可以向评价者提供源语言文本或参考
答案,也可以同时提供源语言文本和参考答案。从评价的角度,参考答案已经
能够帮助评价者进行正确评价,但是源语言文本可以提供更多信息帮助评估译
文的准确性。
评价者选择理想情况下,评价者应同时具有源语言和目标语言的语言能力。
是,很多时候具备双语能力的评价者很难招募,因此这时会考虑使用目标语为
母语的评价者。配合参考答案,单语评价者也可以准确地评价译文质量。
多个系统同时评价如果有多个不同系统的译文需要评价,可以直接使用每个系
统单独打分的方法。但是,如果仅仅是想了解不同译文之间的相对好坏,也可
以采用竞评的方式:对每个待翻译的源语言句子,根据各个机器翻译系统输出
的译文质量对所有待评价的机器翻译系统进行排序,这样做的效率会高于直接
打分,而且评价准确性也能够得到保证。
数据选择。评价数据一般需要根据目标任务进行采集,为了避免和系统训练
据重复,往往会搜集最新的数据。而且,评价数据的规模越大,评价结果越科
学。常用的做法是搜集一定量的评价数据,之后从中采样出所需的数据。由于
1
ARPA MT 计划是美国高级研究计划局软件和智能系统技术处人类语言技术计划的一部分。
114 Chapter 4. 翻译质量评价 肖桐 朱靖波
不同的采样会得到不同的评价集合,这样的方法可以复用多次,得到不同的测
试集。
面向应用的评价了人直接分,一更有的方是把器翻的译
嵌入到下游应用中,通过机器翻译对下游应用的改善效果评估机器翻译译文质
量。比如,可以把机器翻译放入译后编辑流程中,通过对比译员翻译效率的提
升来评价译文质量。再比如,把机器翻译放入线上应用中,通过点击率或者用
户反馈来评价机器翻译的品质。
4.2.2 打分标准
如何对译文进行打分是机器翻译评价的核心问题。在人工评价方法中,一种
广泛使用的方法是
直接评估
Direct Assessment
DA
[131]
这种评价方法需要评价者
给出对机器译文的绝对评分:在给定一个机器译文和一个参考答案的情况下,评
者直接给 1-100 数用来表机器译文质量。与其似的策略对机器翻
质量进行等级评定
[134]
,常见的是在 5 级或 7 级标准中指定单一等级用以反映机器翻
译质量。也有研究者提出利用语言测试技术对机器翻译质量进行评价
[135]
,其中涉及
多等级内容的评价:第一等级测试简单的短语、成语、词汇等;第二等级利用简单的
句子测试机器翻译在简单文本上的表现;第三等级利用稍复杂的句子测试机器翻
在复杂语法结构上的表现;第四等级测试引入更加复杂的补语结构和附加语等等。
除了对译文进行简的打分,另一种经典人工评价方法排序Relative
RankingRR
[136]
。这种方法通过对同机器翻译的文质量进行相对排得到
终的评价结果。举例来说:
在每次评价过程中,若干个等待评价的机器翻译系统被分为 5 个一组,评价者
被提供
3
个连续的源文片段和
1
组机器翻译系统的相应译文;
评价者需要对本组的机器译文根据其质量进行排序,不过评价者并不需要一次
性将 5 个译文排序,而是将其两两进行比较,判出胜负或是平局。在评价过程
中,由于排序是两两一组进行的,为了评价的公平性,将采用排列组合的方式
进行分组和比较,若共有 n 个机器翻译系统,则会为被分为 C
5
n
组,组内每个
系统都将与其他 4 个系统进行比较,由于需要针对 3 个源文片段进行评价对比,
则意味着每个系统都需要被比较 C
5
n
×4 ×3 次;
最终根据多次比较的结果,对所有参与评价的系统进行总体排名。对于如何获
取合理的总体排序,有三种常见的策略:
根据系统胜出的次数进排序
[137]
。以系 S
j
和系统 S
k
为例,两个系统都
被比较了 C
5
n
×4 ×3 次,其中系统 S
j
获胜 20 次,系统 S
k
获胜 30 次,
体排名中系统 S
k
优于系统 S
j
根据冲突次数进行排序
[138]
。第一种排序策略中存在冲突现象:例如在每次
两两比较中,系统 S
j
胜过系 S
k
的次数比系 S
j
不敌系 S
k
的次数
4.2 人工评价 115
多,若待评价系统仅有系统 S
j
S
k
显然系统 S
j
的排名高于系统 S
k
当待评价系统很多时,可能系统 S
j
在所有比较中获胜的次数低于系统 S
k
此时就出现了体排序与局部序不一致的冲突。因此,有研究者出,
能够与局部排序冲突最少的总体排序才是最合理的。 O 表示一个对
干个系统的排序,该排序所对应的冲突定义为:
conflict(O) =
X
S
j
,S
k
O,j̸=k
max(0,count
win
(S
j
,S
k
) count
loss
(S
j
,S
k
)) (4.1)
其中,S
j
S
k
是成对比较的两个系统,count
win
(S
j
,S
k
) count
loss
(S
j
,S
k
)
分别是 S
j
S
k
进行成对比较时系统 S
j
胜利和失败的次数。而使得 conflict(O)
最低的 O 就是最终的系统排序结果。
根据某系统最终获胜的期望进行排序
[139]
。以系统 S
j
为例,若共有 n 待评
价的系统,则进行总体排序时系统 S
j
的得分为其最终获胜的期望,即:
score(S
j
) =
1
n
X
k,k̸=j
count
win
(
S
j
,S
k
)
count
win
(S
j
,S
k
) + count
loss
(S
j
,S
k
)
(4.2)
根据公式(4.2)可以看出,该策略消除了平局的影响。
与相对排序相比,直接评估方法虽然更加直观,但是过度依赖评价者的主观性,
因而直接评估适用于直观反映某机器翻译系统性能,而不适合用来比较机器翻译
统之间的性能差距。在需要对大量系统的进行快速人工评价时,找出不同译文质
之间的相关关系要比直接准确评估译文质量简单得多,基于排序的评价方法可以
大降低评价者的工作量,所以也被系统研发人员经常使用。
在实际应用中,研究者可以根据实际情况选择不同的人工评价方案,人工评
也没有统一的标准。WMT
[140]
CCMT
[141]
机器翻译评测都有配套的人工评价方案,
可以作为业界的参考标准。