636 Chapter B. 附录 B 肖桐 朱靖波
旗舰会议,自 2005 年起已经组织多次机器翻译评测,对国内机器翻译相关技
术的发展产生了深远影响。该评测主要针对汉语、英语以及国内的少数民族语
言(蒙古语、藏语、维吾尔语等)进行评测,领域包括新闻、口语、政府文件
等,不同语言方向对应的领域也有所不同。评价方式不同届略有不同,主要采
用自动评价的方式,自 CWMT 2013 起则针对某些领域增设人工评价。自动评
价的指标一般包括 BLEU-SBP、BLEU-NIST、TER、METEOR、NIST、GTM、
mWER、mPER 以及 ICT 等,其中以 BLEU-SBP 为主,汉语为目标语言的翻译
采用基于字符的评价方式,面向英语的翻译采用基于词的评价方式。每年该评
测吸引国内外近数十家企业及科研机构参赛,业内认可度极高。关于 CCMT 的
更多信息可参考中文信息学会机器翻译专业委员会相关页面。
• WMT。WMT 由 Special Interest Group for Machine Translation(SIGMT)主办,
会议自 2006 年起每年召开一次,是一个机器翻译领域的综合性会议,WMT 公
开评测任务包括多领域翻译评测任务、质量评价任务以及其他与机器翻译的相
关任务(如文档对齐评测等)。现在 WMT 已经成为机器翻译领域的旗舰评测
会议,很多研究工作都以 WMT 评测结果作为基准。WMT 评测涉及的语言范
围较广,包括英语、德语、芬兰语、捷克语、罗马尼亚语等十多种语言,翻译
方向一般以英语为核心,探索英语与其他语言之间的翻译性能,领域包括新闻、
信息技术、生物医学。如今,也增加了无指导机器翻译等热门问题。WMT 在评
价方面类似于 CCMT,也采用人工评价与自动评价相结合的方式,自动评价的
指标一般为 BLEU、TER 等。此外,WMT 公开了所有评测数据,因此也经常被
机器翻译相关人员所使用。更多 WMT 的机器翻译评测相关信息可参考 SIGMT
官网。
• NIST。NIST 机器翻译评测开始于 2001 年,是早期机器翻译公开评测中颇具
代表性的任务,现在 WMT 和 CCMT 很多任务的设置也大量参考了当年 NIST
评测的内容。NIST 评测由美国国家标准技术研究所主办,作为美国国防高级
计划署(DARPA)中 TIDES 计划的重要组成部分。早期,NIST 评测主要评价
阿拉伯语和汉语等语言到英语的翻译效果,评价方法一般采用人工评价与自动
评价相结合的方式。人工评价采用 5 分制评价。自动评价使用多种方式,包括
BLEU,METEOR,TER 以及 HyTER。此外 NIST 从 2016 年起开始对稀缺语言
资源技术进行评估,其中机器翻译作为其重要组成部分共同参与评测,评测指
标主要为 BLEU。除对机器翻译系统进行评测之外,NIST 在 2008 和 2010 年
对于机器翻译的自动评价方法(MetricsMaTr)也进行了评估,以鼓励更多研究
人员对现有评价方法进行改进或提出更加贴合人工评价的方法。同时 NIST 评
测所提供的数据集由于数据质量较高受到众多科研人员喜爱,如 MT04,MT06
等(汉英)平行语料经常被科研人员在实验中使用。不过,近几年 NIST 评测
已经停止。更多 NIST 的机器翻译评测相关信息可参考官网。