B. 附录 B

除了开源系统，机器翻译的发展还离不开评测比赛。在评测比赛中，各个研究

组织的成果可以进行科学的对比，且各个研究组织可以互相学习，共同推动机器翻

译的发展与进步。另外在构建机器翻译系统的过程中，数据是必不可少的，尤其是

现在主流的神经机器翻译系统，系统的性能往往受限于语料库规模和质量。所幸的

是，随着语料库语言学的发展，一些主流语种的相关语料资源已经十分丰富。

为了方便读者进行相关研究，本书汇总了几个常见的公开评测任务、一些常用

的基准数据集和常用的平行语料。

B.1 公开评测任务

机器翻译相关评测主要有两种组织形式，一种是由政府及国家相关机构组织，权

威性强。如由美国国家标准技术研究所组织的 NIST 评测、日本国家科学咨询系统

中心主办的 NACSIS Test Collections for IR（NTCIR）PatentMT、日本科学振兴机构

（Japan Science and Technology Agency，简称 JST）等组织联合举办的 Workshop on

Asian Translation（WAT）以及国内由中文信息学会主办的全国机器翻译大会（China

Conference on Machine Translation，简称 CCMT）；另一种是由相关学术机构组织，具

有领域针对性的特点，如倾向新闻领域的 Conference on Machine Translation（WMT）

以及面向口语的 International Workshop on Spoken Language Translation（IWSLT）。下

面将针对上述评测进行简要介绍。

• CCMT。CCMT（全国机器翻译大会）前身为 CWMT，是国内机器翻译领域的

636 Chapter B. 附录 B 肖桐朱靖波

旗舰会议，自 2005 年起已经组织多次机器翻译评测，对国内机器翻译相关技

术的发展产生了深远影响。该评测主要针对汉语、英语以及国内的少数民族语

言（蒙古语、藏语、维吾尔语等）进行评测，领域包括新闻、口语、政府文件

等，不同语言方向对应的领域也有所不同。评价方式不同届略有不同，主要采

用自动评价的方式，自 CWMT 2013 起则针对某些领域增设人工评价。自动评

价的指标一般包括 BLEU-SBP、BLEU-NIST、TER、METEOR、NIST、GTM、

mWER、mPER 以及 ICT 等，其中以 BLEU-SBP 为主，汉语为目标语言的翻译

采用基于字符的评价方式，面向英语的翻译采用基于词的评价方式。每年该评

测吸引国内外近数十家企业及科研机构参赛，业内认可度极高。关于 CCMT 的

更多信息可参考中文信息学会机器翻译专业委员会相关页面。

• WMT。WMT 由 Special Interest Group for Machine Translation（SIGMT）主办，

会议自 2006 年起每年召开一次，是一个机器翻译领域的综合性会议，WMT 公

开评测任务包括多领域翻译评测任务、质量评价任务以及其他与机器翻译的相

关任务（如文档对齐评测等）。现在 WMT 已经成为机器翻译领域的旗舰评测

会议，很多研究工作都以 WMT 评测结果作为基准。WMT 评测涉及的语言范

围较广，包括英语、德语、芬兰语、捷克语、罗马尼亚语等十多种语言，翻译

方向一般以英语为核心，探索英语与其他语言之间的翻译性能，领域包括新闻、

信息技术、生物医学。如今，也增加了无指导机器翻译等热门问题。WMT 在评

价方面类似于 CCMT，也采用人工评价与自动评价相结合的方式，自动评价的

指标一般为 BLEU、TER 等。此外，WMT 公开了所有评测数据，因此也经常被

机器翻译相关人员所使用。更多 WMT 的机器翻译评测相关信息可参考 SIGMT

官网。

• NIST。NIST 机器翻译评测开始于 2001 年，是早期机器翻译公开评测中颇具

代表性的任务，现在 WMT 和 CCMT 很多任务的设置也大量参考了当年 NIST

评测的内容。NIST 评测由美国国家标准技术研究所主办，作为美国国防高级

计划署（DARPA）中 TIDES 计划的重要组成部分。早期，NIST 评测主要评价

阿拉伯语和汉语等语言到英语的翻译效果，评价方法一般采用人工评价与自动

评价相结合的方式。人工评价采用 5 分制评价。自动评价使用多种方式，包括

BLEU，METEOR，TER 以及 HyTER。此外 NIST 从 2016 年起开始对稀缺语言

资源技术进行评估，其中机器翻译作为其重要组成部分共同参与评测，评测指

标主要为 BLEU。除对机器翻译系统进行评测之外，NIST 在 2008 和 2010 年

对于机器翻译的自动评价方法（MetricsMaTr）也进行了评估，以鼓励更多研究

人员对现有评价方法进行改进或提出更加贴合人工评价的方法。同时 NIST 评

测所提供的数据集由于数据质量较高受到众多科研人员喜爱，如 MT04，MT06

等（汉英）平行语料经常被科研人员在实验中使用。不过，近几年 NIST 评测

已经停止。更多 NIST 的机器翻译评测相关信息可参考官网。

B.2 基准数据集 637

• IWSLT。从 2004 年开始举办的 IWSLT 也是颇具特色的机器翻译评测，它主要关

注口语相关的机器翻译任务，测试数据包括 TED talks 的多语言字幕以及 QED

教育讲座影片的字幕等，语言涉及英语、法语、德语、捷克语、汉语、阿拉伯

语等众多语言。此外在 IWSLT 2016 中还加入了对于日常对话的翻译评测，尝

试将微软 Skype 中一种语言的对话翻译成其他语言。评价方式采用自动评价的

模式，评价标准和 WMT 类似，一般为 BLEU 等指标。另外，IWSLT 除了包含

文本到文本的翻译评测外，还有自动语音识别以及语音转另一种语言的文本的

评测。更多 IWSLT 的机器翻译评测相关信息可参考 IWSLT 官网。

• WAT。日本举办的机器翻译评测 WAT 是亚洲范围内的重要评测之一，由日本

科学振兴机构（JST）、情报通信研究机构（NICT）等多家机构共同组织，旨在

为亚洲各国之间交流融合提供便宜之处。语言方向主要包括亚洲主流语言（汉

语、韩语、印地语等）以及英语对日语的翻译，领域丰富多样，包括学术论文、

专利、新闻、食谱等。评价方式包括自动评价（BLEU、RIBES 以及 AMFM 等）

以及人工评价，其特点在于对于测试语料以段落为单位进行评价，考察其上下

文关联的翻译效果。更多 WAT 的机器翻译评测相关信息可参考官网。

• NTCIR。NTCIR 计划是由日本国家科学咨询系统中心策划主办的，旨在建立一

个用在自然语言处理以及信息检索相关任务上的日文标准测试集。在 NTCIR-9

和 NTCIR-10 中开设的 Patent Machine Translation（PatentMT）任务主要针对专

利领域进行翻译测试，其目的在于促进机器翻译在专利领域的发展和应用。在

NTCIR-9 中，评测方式采取人工评价与自动评价相结合，以人工评价为主导。

人工评价主要根据准确度和流畅度进行评估，自动评价采用 BLEU、NIST 等方

式进行。NTCIR-10 评价方式在此基础上增加了专利审查评估、时间评估以及

多语种评估，分别考察机器翻译系统在专利领域翻译的实用性、耗时情况以及

不同语种的翻译效果等。更多 NTCIR 评测相关信息可参考官网。

以上评测数据大多可以从评测网站上下载，此外部分数据也可以从 LDC（Lingu-

istic Data Consortium）上申请。ELRA（European Language Resources Association）上

也有一些免费的语料库供研究使用。从机器翻译发展的角度看，这些评测任务给相

关研究提供了基准数据集，使得不同的系统都可以在同一个环境下进行比较和分析，

进而建立了机器翻译研究所需的实验基础。此外，公开评测也使得研究人员可以第

一时间了解机器翻译研究的最新成果，比如，有多篇 ACL 会议最佳论文的灵感就来

自当年参加机器翻译评测任务的系统。

B.2 基准数据集

表B.1所展示的数据集已经在机器翻译领域中被广泛使用，有很多之前的相关工

作使用这些数据集进行实验，读者可以复现这些工作，或者将其在数据集上的结果

与自己的工作进行比较。

638 Chapter B. 附录 B 肖桐朱靖波

表 B.1 基准数据集

任务语种领域描述

WMT En-Zh、

En-De 等

新闻、医学、

翻译

以英语为核心的多语种机器翻译数据

集，涉及多种任务

IWSLT En-De、

En-Zh 等

口语翻译文本翻译数据集来自 TED 演讲，数据

规模较小

NIST Zh-En

、

En-Cs 等

新闻翻译评测集包括 4 句参考译文，质量较高

TVsub Zh-En 字幕翻译数据抽取自电视剧字幕，用于对话中长

距离上下文研究

Flickr30K En-De 多模态翻译 31783 张图片，每张图片 5 个语句标注

Multi30K En-De、

En-Fr

多模态翻译 31014 张图片，每张图片 5 个语句标注

IAPRTC-12 En-De 多模态翻译 20000 张图片及对应标注

IKEA En-De、

En-Fr

多模态翻译 3600 张图片及对应标注

B.3 平行语料

神经机器翻译系统的训练需要大量的双语数据，这里本节汇总了一些公开的平

行语料，方便读者获取。

• News Commentary Corpus：包括汉语、英语等 12 个语种，64 个语言对的双语

数据，爬取自 Project Syndicate 网站的政治、经济评论。

• CWMT Corpus：中国计算机翻译研讨会社区收集和共享的中英平行语料，涵盖

多种领域，例如新闻、电影字幕、小说和政府文档等。

• Common Crawl corpus：包括捷克语、德语、俄语、法语 4 种语言到英语的双语

数据，爬取自互联网网页。

• Europarl Corpus：包括保加利亚语、捷克语等 20 种欧洲语言到英语的双语数据，

来源于欧洲议会记录。

• ParaCrawl Corpus：包括 23 种欧洲语言到英语的双语语料，数据来源于网络爬

取。

• United Nations Parallel Corpus：包括阿拉伯语、英语、西班牙语、法语、俄语、

汉语 6 种联合国正式语言，30 种语言对的双语数据，来源自联合国公共领域的

官方记录和其他会议文件。

• TED Corpus：TED 大会演讲在其网站公布了自 2007 年以来的演讲字幕，以及

超过 100 种语言的翻译版本。WIT 收集整理了这些数据，以方便科研工作者使

B.3 平行语料 639

用，同时，会为每年的 IWSLT 评测比赛提供评测数据集。

• OpenSubtitle：由 P. Lison 和 J. Tiedemann 收集自 opensubtitles 电影字幕网站，包

含 62 种语言、1782 个语种对的平行语料，资源相对比较丰富。

• Wikititles Corpus：包括古吉拉特语等 14 个语种，11 个语言对的双语数据，数

据来源自维基百科的标题。

• CzEng: 捷克语和英语的平行语料，数据来源于欧洲法律、信息技术和小说领

域。

• Yandex Corpus：俄语和英语的平行语料，爬取自互联网网页。

• Tilde MODEL Corpus：欧洲语言的多语言开放数据，包含多个数据集，数据来

自于经济、新闻、政府、旅游等门户网站。

• Setimes Corpus：包括克罗地亚语、阿尔巴尼亚等 9 种巴尔干语言，72 个语言

对的双语数据，来源于东南欧时报的新闻报道。

• TVsub：收集来自电视剧集字幕的中英文对话语料，包含超过 200 万的句对，可

用于对话领域和长距离上下文信息的研究。

• Recipe Corpus：由 Cookpad 公司创建的日英食谱语料库，包含 10 万多个句对。