4.3 有参考答案的自动评价 123
他/的/房子/在/河/的/南岸/。
We keep our money in a bank .
我们/在/一家/银行/存钱/。
检测点:bank 的多义翻译
该方法的关键在于检测点的获取。有工作曾提出一种从平行双语句子中自动提
取检查点的方法
[153]
,借助大量的双语词对齐平行语料,利用自然语言处理工具对其
进行词性标注、句法分析等处理,利用预先构建的词典和人工定义的规则,识别语
料中不同类别的检查点,从而构建检查点数据库。其中,将检查点分别设计为单词
级(如介词、歧义词等)、短语级(如固定搭配)、句子级(特殊句型、复合句型等)
三个层面,在对机器翻译系统进行评价时,在检查点数据库中分别选取不同类别检
查点对应的测试数据进行测试,从而了解机器翻译系统在各种重要语言现象方面的
翻译能力。除此之外,这种方法也能应用于机器翻译系统之间的性能比较中,通过
为各个检查点分配合理的权重,用翻译系统在各个检查点得分的加权平均作为系统
得分,从而对机器翻译系统的整体水平作出评价。
基于检测点的评价方法的意义在于,它并不是简单给出一个分数,反而更像是
一种诊断型评估方法,能够帮助系统研发人员定位系统问题。因此这类方法更多地
使用在对机器翻译系统的翻译能力进行分析上,是对 BLEU 等整体评价指标的一种
很好的补充。
4.3.4 多策略融合的评价方法
前面介绍的几种自动评价方法中,大多是从某个单一的角度比对机器译文与参
考答案之间的相似度,例如 BLEU 更关注 n-gram 是否命中、Meteor 更关注机器译文
与参考答案之间的词对齐信息、WER、PER 与 TER 等方法只关注机器译文与参考译
文之间的编辑距离,此外还有一些方法比较关注机器译文和参考译文在语法、句法
方面的相似度。但无一例外的是,每种自动评价的关注点都是单一的,无法对译文
质量进行全面、综合的评价。为了克服这种限制,研究人员们提出了一些基于多策
略融合的译文质量评估方法,以期提高自动评价与人工评价结果的一致性。
基于策略融合的自动评价方法往往会将多个基于词汇、句法和语义的自动评价
方法融合在内,其中比较核心的问题是如何将多个评价方法进行合理地组合。目前
提出的方法中颇具代表性的是使用参数化方式和非参数化方式对多种自动评价方法
进行筛选和组合。
参数化组合方法的实现主要有两种方式:一种方式是广泛使用不同的译文质量
评价作为特征,借助回归算法实现多种评价策略的融合
[154, 155]
;另一种方式则是对各
种译文质量评价方法的结果进行加权求和,并借助机器学习算法更新内部的权重参
数,从而实现多种评价策略的融合
[156]
。
非参数化组合方法的思想与贪心算法异曲同工:以与人工评价的相关度为标准,
将多个自动评价方法降序排列,依次尝试将其加入最优策略集合中,如果能提高最