
1.7 开源项目与评测 45
有不同,主要采用自动评价的方式,自 CWMT 2013 起则针对某些领域增设人
工评价。自动评价的指标一般包括 BLEUSBP、BLEUNIST、TER、METEOR、
NIST、GTM、mWER、mPER 以及 ICT 等,其中以 BLEUSBP 为主,汉语为
目标语的翻译采用基于字符的评价方式,面向英语的翻译采用基于词的评价
方式。每年该评测吸引国内外近数十家企业及科研机构参赛,业内认可度极
高。关于 CCMT 的更多信息可参考中文信息学会机器翻译专业委员会相关页
面:http://sc.cipsc.org.cn/mt/index.php/CWMT.html。
• WMT 由 Special Interest Group for Machine Translation(SIGMT)主办,会议自
2006 年起每年召开一次,是一个涉及机器翻译多种任务的综合性会议,包括
多领域翻译评测任务、质量评价任务以及其他与机器翻译的相关任务(如文档
对齐评测等)。现在 WMT 已经成为机器翻译领域的旗舰评测会议,很多研究
工作都以 WMT 评测结果作为基准。WMT 评测涉及的语言范围较广,包括英
语、德语、芬兰语、捷克语、罗马尼亚语等十多种语言,翻译方向一般以英语
为核心,探索英语与其他语言之间的翻译性能,领域包括新闻、信息技术、生
物医学。最近,也增加了无指导机器翻译等热门问题。WMT 在评价方面类似
于 CCMT,也采用人工评价与自动评价相结合的方式,自动评价的指标一般
为 BLEU、TER 等。此外,WMT 公开了所有评测数据,因此也经常被机器翻
译相关人员所使用。更多 WMT 的机器翻译评测相关信息可参考 SIGMT 官网:
http://www.sigmt.org/。
• NIST 机器翻译评测开始于 2001 年,是早期机器翻译公开评测中颇具代表性
的任务,现在 WMT 和 CCMT 很多任务的设置也大量参考了当年 NIST 评测
的内容。NIST 评测由美国国家标准技术研究所主办,作为美国国防高级计划
署(DARPA)中 TIDES 计划的重要组成部分。早期,NIST 评测主要评价阿
拉伯语和汉语等语言到英语的翻译效果,评价方法一般采用人工评价与自动
评价相结合的方式。人工评价采用 5 分制评价。自动评价使用多种方式,包
括 BLEU,METEOR,TER 以及 HyTER。此外 NIST 从 2016 年起开始对稀
缺语言资源技术进行评估,其中机器翻译作为其重要组成部分共同参与评测,
评测指标主要为 BLEU。除对机器翻译系统进行评测之外,NIST 在 2008 和
2010 年对于机器翻译的自动评价方法(MetricsMaTr)也进行了评估,以鼓励
更多研究人员对现有评价方法进行改进或提出更加贴合人工评价的方法。同
时 NIST 评测所提供的数据集由于数据质量较高受到众多科研人员喜爱,如
MT04,MT06 等(汉英)平行语料经常被科研人员在实验中使用。不过,近
几年 NIST 评测已经停止。更多 NIST 的机器翻译评测相关信息可参考官网:
https://www.nist.gov/programs-projects/machine-translation。
• 从 2004 年开始举办的 IWSLT 也是颇具特色的机器翻译评测,它主要关注口
语相关的机器翻译任务,测试数据包括 TED talks 的多语言字幕以及 QED 教