4.2 人工评价 113
4.2 人工评价
顾名思义,人工评价是指评价者根据翻译结果好坏对译文进行评价。例如,可
以根据句子的忠诚度和流畅度对其进行打分,这样能够准确评定出译文是否准确翻
译出源文的意思以及译文是否通顺。在人工评价时,一般由多个评价者匿名对译文
打分,之后综合所有评价者的评价结果给出最终的得分。人工评价可以准确反映句
子的翻译质量,是最权威、可信度最高的评价方法,但是其缺点也十分明显:需要耗
费人力物力,而且评价的周期长,不能及时得到有效的反馈。因此在实际系统开发
中,纯人工评价不会过于频繁地被使用,它往往和自动评价一起配合,帮助系统研
发人员准确的了解当前系统的状态。
4.2.1 评价策略
合理的评价指标是人工评价得以顺利进行的基础。机器译文质量的人工评价可
以追溯到 1966 年,自然语言处理咨询委员会提出可理解度(Intelligibility)和忠诚度
作为机器译文质量人工评价指标
[130]
。1994 年,充分性(Adequacy)、流畅度和信息
量(Informativeness)成为 ARPA MT
1
的人工评价标准
[131]
。此后,有不少研究者提出
了更多的机器译文质量人工评估指标,例如将清晰度(Clarity)和连贯性(Coherence)
加入人工评价指标中
[132]
。甚至有人将各种人工评价指标集中在一起,组成了尽可能
全面的机器翻译评估框架
[133]
。
人工评价的策略非常多。考虑不同的因素,往往会使用不同的评价方案,比如:
• 是否呈现源语言文本。在进行人工评价时,可以向评价者提供源语言文本或参考
答案,也可以同时提供源语言文本和参考答案。从评价的角度,参考答案已经
能够帮助评价者进行正确评价,但是源语言文本可以提供更多信息帮助评估译
文的准确性。
• 评价者选择。理想情况下,评价者应同时具有源语言和目标语言的语言能力。但
是,很多时候具备双语能力的评价者很难招募,因此这时会考虑使用目标语为
母语的评价者。配合参考答案,单语评价者也可以准确地评价译文质量。
• 多个系统同时评价。如果有多个不同系统的译文需要评价,可以直接使用每个系
统单独打分的方法。但是,如果仅仅是想了解不同译文之间的相对好坏,也可
以采用竞评的方式:对每个待翻译的源语言句子,根据各个机器翻译系统输出
的译文质量对所有待评价的机器翻译系统进行排序,这样做的效率会高于直接
打分,而且评价准确性也能够得到保证。
• 数据选择。评价数据一般需要根据目标任务进行采集,为了避免和系统训练数
据重复,往往会搜集最新的数据。而且,评价数据的规模越大,评价结果越科
学。常用的做法是搜集一定量的评价数据,之后从中采样出所需的数据。由于
1
ARPA MT 计划是美国高级研究计划局软件和智能系统技术处人类语言技术计划的一部分。