
4.5 小结及拓展阅读 139
4.5 小结及拓展阅读
译文的质量评价是机器翻译研究中不可或缺的环节。与其他任务不同,由于自
然语言高度的歧义性和表达方式的多样性,机器翻译的参考答案本身就不唯一。此
外,对译文准确、全面的评价准则很难制定,导致译文质量的自动评价变得异常艰
难,因此也成为了广受关注的研究课题。本章系统阐述了译文质量评估的研究现状
和主要挑战。从人类参与程度和标注类型两个角度对译文质量评价中的经典方法进
行介绍,力求让读者对领域内的经典及热点内容有更加全面的了解。不过,由于篇
幅限制笔者无法对译文评价的相关工作进行面面俱到的描述,还有很多研究方向值
得关注:
• 基于句法和语义的机器译文质量自动评价方法。本章内容中介绍的自动评价多
是基于表面字符串形式判定机器翻译结果和参考译文之间的相似度,而忽略了
更抽象的语言层次的信息。基于句法和语义的机器译文质量自动评价方法在评
价度量标准中加入能反映句法信息
[213]
和语义信息
[214]
的相关内容,通过比较机
器译文与参考答案之间的句法相似度和语义等价性
[215]
,能够大大提高自动评
价与人工评价之间的相关性。其中句法信息往往能够对机器译文流利度方面的
评价起到促进作用
[213]
,常见的句法信息包括语法成分
[213]
、依存关系
[216, 217, 218]
等。
语义信息则对机器翻译的充分性评价更有帮助
[219, 220]
,近年来也有很多用于机
器译文质量评估的语义框架被提出,如 AM-FM
[219]
、XMEANT
[221]
等。
• 对机器译文中的错误分析和错误分类。无论是人工评价还是自动评价手段,其
评价结果只能反映机器翻译系统性能,而无法确切表明机器翻译系统的优点
和弱点是什么、系统最常犯什么类型的错误、一个特定的修改是否改善了系统
的某一方面、排名较好的系统是否在任何方面都优于排名较差的系统等等。对
机器译文进行错误分析和错误分类有助于找出机器翻译系统中存在的主要问
题,以便集中精力进行研究改进
[222]
。相关的研究工作中,一些致力于错误分类
方法的设计,如手动的机器译文错误分类框架
[222]
、自动的机器译文错误分类
框架
[223]
、基于语言学的错误分类方法
[224]
以及目前被用作篇章级质量评估注释
标准的 MQM 错误分类框架
[225]
;其他的研究工作则致力于对机器译文进行错
误分析,如引入形态句法信息的自动错误分析框架
[226]
、引入词错误率(WER)
和位置无关词错误率(PER)的错误分析框架
[227]
、基于检索的错误分析工具
tSEARCH
[228]
等等。
• 译文质量的多角度评价。章节内主要介绍的几种经典方法如 BLEU、TER、ME-
TEOR 等,大都是从某个单一的角度计算机器译文和参考答案的相似性,如何
对译文从多个角度进行综合评价是需要进一步思考的问题,4.3.4节中介绍的多
策略融合评价方法就可以看作是一种多角度评价方法,其思想是将各种评价方
法下的译文得分通过某种方式进行组合,从而实现对译文的综合评价。译文质
量多角度评价的另一种思路则是直接将 BLEU、TER、Meteor 等多种指标看做