4.5 小结及拓展阅读 139
4.5 小结及拓展阅读
译文的质量评价是机器翻译研究中不可或缺的环节。与其他任务不同,由于自
然语言高度的歧义性和表达方式的多样性,机器翻译的参考答案本身就不唯一。此
外,对译文准确、全面的评价准则很难制定,导致译文质量的自动评价变得异常艰
难,因此也成为了广受关注的研究课题。本章系统阐述了译文质量评估的研究现状
和主要挑战。从人类参与程度和标注类型两个角度对译文质量评价中的经典方法进
行介绍,力求让读者对领域内的经典及热点内容有更加全面的了解。不过,由于篇
幅限制笔者无法对译文评价的相关工作进行面面俱到的描述,还有很多研究方向值
得关注:
基于句法和语义的机器译文质量自动评价方法。本章内容中介绍的自动评价多
是基于表面字符串形式判定机器翻译结果和参考译文之间的相似度,而忽略了
更抽象的语言层次的信息。基于句法和语义的机器译文质量自动评价方法在评
价度量标准中加入能反映句法信息
[213]
和语义信息
[214]
的相关内容,通过比较机
器译答案法相义等
[215]
,能高自
价与人工评价之间的相关性。其中句法信息往往能够对机器译文流利度方面的
评价起到促进作用
[213]
常见的句法信息包括语法成分
[213]
依存关系
[216, 217, 218]
等。
语义息则器翻充分评价帮助
[219, 220]
,近来也多用
器译文质量评估的语义框架被提出,如 AM-FM
[219]
XMEANT
[221]
等。
对机器译文中的错误分析和错误分类。无论是人工评价还是自动评价手段,
能,
和弱点是什么、系统最常犯什么类型的错误、一个特定的修改是否改善了系统
的某一方面、排名较好的系统是否在任何方面都优于排名较差的系统等等。
题,以便集中精力进行研究改进
[222]
相关的研究工作中,一些致力于错误分类
方法计,动的误分
[222]
、自文错
框架
[223]
、基于语言学的错误分类方法
[224]
以及目前被用作篇章级质量评估注释
标准 MQM 错误分类
[225]
;其研究致力机器行错
误分析,如引入形态句法信息的自动错误分析框架
[226]
、引入词错误率WER
PER
[227]
tSEARCH
[228]
等等。
译文质量的多角度评价。章节内主要介绍的几种经典方法如 BLEUTERME-
TEOR 等,大都是从某个单一的角度计算机器译文和参考答案的相似性,如
对译文从多个角度进行综合评价是需要进一步思考的问题,4.3.4节中介绍的多
策略融合评价方法就可以看作是一种多角度评价方法,其思想是将各种评价方
法下的译文得分通过某种方式进行组合,从而实现对译文的综合评价。译文质
量多角度评价的另一种思路则是直接将 BLEUTERMeteor 等多种指标看做
140 Chapter 4. 翻译质量评价 肖桐 朱靖波
是某种特征,使用分类
[229, 230]
回归
[231]
排序
[232]
等机器学习手段形成一种综合
度量。此外,也有相关工作专注于多等级的译文质量评价,使用聚类算法将大
致译文按其质量分为不同等级,并对不同质量等级的译文按照不同权重组合几
种不同的评价方法
[233]
不同评价方法的应用场景有明显不同:人工评价主要用于需要对机器翻译系统
进行准确的评估的场合。例如,在系统对比中利用人工评价方法对不同系统进
行人工评价、给出最终排名,或上线机器翻译服务时对翻译品质进行详细的测
试;有参考答案的自动评价则可以为机器翻译系统提供快速、相对可靠的评价。
在机器翻译系统的快速研发过程中,一般都使用有参考答案的自动评价方法对
最终模型的性能进行评估。有相关研究工作专注于在机器翻译模型的训练过程
中利用评价信息(如 BLEU 分数)进行参数调优,其中比较有代表性的工作包
括最小错误率训练
[234]
、最小风险训练
[235, 236]
等。这部分内容可以参考第七章和
第十三章进行进一步阅读;无参考答案的质量评估主要用来对译文质量做出预
测,经常被应用在一些无法提供参考译文的实时翻译场景中,例如人机交互过
程、自动纠错、后编辑等
[237]
使棒,
下,一个质量评估模型会受语种、评价策略等问题的约束,设计一个能应用于
任何语种,同时从单词、短语、句子等各个等级对译文质量进行评估的模型是
很有难度的。Biçici 等人最先关注质量评估的鲁棒性问题,并设计开发了一种
与语机器预测
[238]
,此工作研究
用外在的、与语言无关的特征对译文进行句子级别的质量评估
[193]
该项研究的
最终成果是一个与语言无关,可以从各个等级对译文质量进行评估的模型—
RTMsReferential Translation Machines
[239]