B. 附录 B
除了开源系统,机器翻译的发展还离不开评测比赛。在评测比赛中,各个研
组织的成果可以进行科学的对比,且各个研究组织可以互相学习,共同推动机器
译的发展与进步。另外在构建机器翻译系统的过程中,数据是必不可少的,尤其
现在主流的神经机器翻译系统,系统的性能往往受限于语料库规模和质量。所幸
是,随着语料库语言学的发展,一些主流语种的相关语料资源已经十分丰富。
为了方便读者进行相关研究,本书汇总了几个常见的公开评测任务、一些常
的基准数据集和常用的平行语料。
B.1 公开评测任务
机器翻译相关评测主要有两种组织形式,一种是由政府及国家相关机构组织,
威性强。由美家标术研组织 NIST 评测、日本科学系统
中心主办 NACSIS Test Collections for IRNTCIRPatentMT、日本科学振兴机构
Japan Science and Technology Agency JST Workshop on
Asian TranslationWAT以及国内由中文信息学会主办的全国机器翻译大会China
Conference on Machine Translation简称 CCMT另一种是由相关学术机构组织,
有领域针对性的特点,如倾向新闻领域的 Conference on Machine TranslationWMT
以及面向口语的 International Workshop on Spoken Language TranslationIWSLT
面将针对上述评测进行简要介绍。
CCMTCCMT(全国机器翻译大会)前身为 CWMT是国内机器翻译领域的
636 Chapter B. 附录 B 肖桐 朱靖波
旗舰会议,自 2005 年起已经组织多次机器翻译评测,对国内机器翻译相关
术的发展产生了深远影响。该评测主要针对汉语、英语以及国内的少数民族语
言(蒙古语、藏语、维吾尔语等)进行评测,领域包括新闻、口语、政府文件
等,不同语言方向对应的领域也有所不同。评价方式不同届略有不同,主要采
用自动评价的方式,自 CWMT 2013 起则针对某些领域增设人工评价。自动评
价的指标一般包括 BLEU-SBPBLEU-NISTTERMETEORNISTGTM
mWERmPER 以及 ICT 等,其中以 BLEU-SBP 为主,汉语为目标语言的翻译
采用基于字符的评价方式,面向英语的翻译采用基于词的评价方式。每年该评
测吸引国内外近数十家企业及科研机构参赛,业内认可度极高。关于 CCMT
更多信息可参考中文信息学会机器翻译专业委员会相关页面。
WMTWMT Special Interest Group for Machine TranslationSIGMT主办,
会议自 2006 年起每年召开一次,是一个机器翻译领域的综合性会议,WMT
开评测任务包括多领域翻译评测任务、质量评价任务以及其他与机器翻译的相
关任务(如文档对齐评测等)。现在 WMT 经成为机器翻译领域的旗舰评
会议,很多研究工作都以 WMT 评测结果作为基准。WMT 评测涉及的语言范
围较广,包括英语、德语、芬兰语、捷克语、罗马尼亚语等十多种语言,翻译
方向一般以英语为核心,探索英语与其他语言之间的翻译性能,领域包括新闻、
信息技术、生物医学。如今,也增加了无指导机器翻译等热门问题。WMT 在评
价方面类似于 CCMT也采用人工评价与自动评价相结合的方式,自动评价的
指标一般为 BLEUTER 等。此外,WMT 公开了所有评测数据,因此也经常被
机器翻译相关人员所使用。更多 WMT 的机器翻译评测相关信息可参考 SIGMT
官网。
NISTNIST 机器 2001 年,是译公
代表性的任务,现在 WMT CCMT 很多任务的设置也大量参考了当 NIST
评测的内容。NIST 测由美国家标准技术研究所主办,为美国国防高
计划署DARPA TIDES 计划的重要组成部分。早期,NIST 评测主要评价
阿拉伯语和汉语等语言到英语的翻译效果,评价方法一般采用人工评价与自动
评价相结合的方式。人工评价采用 5 分制评价。自动评价使用多种方式,包括
BLEUMETEORTER 以及 HyTER此外 NIST 2016 年起开始对稀缺语言
资源技术进行评估,其中机器翻译作为其重要组成部分共同参与评测,评测指
标主要为 BLEU。除对机翻译系统行评之外,NIST 2008 2010
对于机器翻译的自动评价方法MetricsMaTr也进行了评估,以鼓励更多研究
人员对现有评价方法进行改进或提出更加贴合人工评价的方法。同时 NIST
测所提供的数据集由于数据质量较高受到众多科研人员喜爱, MT04MT06
等(汉英)平行语料经常被科研人员在实验中使用。不过,近几年 NIST 评测
已经停止。更多 NIST 的机器翻译评测相关信息可参考官网。
B.2 基准数据集 637
IWSLT 2004 年开始举办的 IWSLT 也是颇具特色的机器翻译评测,它主要关
注口语相关的机器翻译任务,测试数据包括 TED talks 的多语言字幕以及 QED
教育讲座影片的字幕等,语言涉及英语、法语、德语、捷克语、汉语、阿拉伯
语等众多语言。此外在 IWSLT 2016 中还加入了对于日常对话的翻译评测,尝
试将微软 Skype 中一种语言的对话翻译成其他语言。评价方式采用自动评价的
模式,评价标准和 WMT 类似,一般为 BLEU 等指标。另外,IWSLT 除了包含
文本到文本的翻译评测外,还有自动语音识别以及语音转另一种语言的文本的
评测。更多 IWSLT 的机器翻译评测相关信息可参考 IWSLT 官网。
WAT。日本举办的机器翻译评 WAT 是亚洲范围内的重要评测之一,由日本
科学振兴机构JST情报通信研究机构NICT等多家机构共同组织,旨在
为亚洲各国之间交流融合提供便宜之处。语言方向主要包括亚洲主流语言(汉
语、韩语、印地语等)以及英语对日语的翻译,领域丰富多样,包括学术论文、
专利、新闻、食谱等。评价方式包括自动评价BLEURIBES 以及 AMFM 等)
以及人工评价,其特点在于对于测试语料以段落为单位进行评价,考察其上下
文关联的翻译效果。更多 WAT 的机器翻译评测相关信息可参考官网。
NTCIRNTCIR 计划是由日本国家科学咨询系统中心策划主办的,旨在建立一
个用在自然语言处理以及信息检索相关任务上的日文标准测试集。 NTCIR-9
NTCIR-10 中开设的 Patent Machine TranslationPatentMT任务主要针对专
利领域进行翻译测试,其目的在于促进机器翻译在专利领域的发展和应用。
NTCIR-9 中,测方式采人工评价自动评价结合,以人评价为主导。
人工评价主要根据准确度和流畅度进行评估,自动评价采用 BLEUNIST 等方
式进行。NTCIR-10 评价方式在此基础上增加了专利审查评估、时间评估以
多语种评估,分别考察机器翻译系统在专利领域翻译的实用性、耗时情况以及
不同语种的翻译效果等。更多 NTCIR 评测相关信息可参考官网。
以上评测数据大多可以从评测网站上下载,此外部分数据也可以从 LDCLingu-
istic Data Consortium上申请。ELRAEuropean Language Resources Association
也有一些免费的语料库供研究使用。从机器翻译发展的角度看,这些评测任务给
关研究提供了基准数据集,使得不同的系统都可以在同一个环境下进行比较和分析,
进而建立了机器翻译研究所需的实验基础。此外,公开评测也使得研究人员可以
一时间了解机器翻译研究的最新成果,比如,有多篇 ACL 会议最佳论文的灵感就来
自当年参加机器翻译评测任务的系统。
B.2 基准数据集
B.1所展示的数据集已经在机器翻译领域中被广泛使用,有很多之前的相关工
作使用这些数据集进行实验,读者可以复现这些工作,或者将其在数据集上的结
与自己的工作进行比较。
638 Chapter B. 附录 B 肖桐 朱靖波
B.1 基准数据集
任务 语种 领域 描述
WMT En-Zh
En-De
新闻、医学、
翻译
英语
集,涉及多种任务
IWSLT En-De
En-Zh
口语翻译 文本翻译数据集来自 TED 演讲,数据
规模较小
NIST Zh-En
En-Cs
新闻翻译 评测集包括 4 句参考译文,质量较高
TVsub Zh-En 字幕翻译 数据抽取自电视剧字幕,用于对话中长
距离上下文研究
Flickr30K En-De 多模态翻译 31783 张图片,每张图片 5 个语句标注
Multi30K En-De
En-Fr
多模态翻译 31014 张图片,每张图片 5 个语句标注
IAPRTC-12 En-De 多模态翻译 20000 张图片及对应标注
IKEA En-De
En-Fr
多模态翻译 3600 张图片及对应标注
B.3 平行语料
神经机器翻译系统的训练需要大量的双语数据,这里本节汇总了一些公开的
行语料,方便读者获取。
News Commentary Corpus:包括汉语、英语 12 个语种,64 个语言对的双语
数据,爬取自 Project Syndicate 网站的政治、经济评论。
CWMT Corpus中国计算机翻译研讨会社区收集和共享的中英平行语料,涵盖
多种领域,例如新闻、电影字幕、小说和政府文档等。
Common Crawl corpus包括捷克语、德语、俄语、法语 4 种语言到英语的双语
数据,爬取自互联网网页。
Europarl Corpus包括保加利亚语、捷克语等 20 种欧洲语言到英语的双语数据,
来源于欧洲议会记录。
ParaCrawl Corpus:包括 23 种欧洲语言到英语的双语语料,数据来源于网络爬
取。
United Nations Parallel Corpus:包括阿拉伯语、英语、西班牙语、法语、俄语、
汉语 6 种联合国正式语言,30 种语言对的双语数据,来源自联合国公共领域的
官方记录和其他会议文件。
TED CorpusTED 大会演讲在其网站公布了自 2007 年以来的演讲字幕,以及
超过 100 种语言的翻译版本。WIT 收集整理了这些数据,以方便科研工作者使
B.3 平行语料 639
用,同时,会为每年的 IWSLT 评测比赛提供评测数据集。
OpenSubtitle P. Lison J. Tiedemann 收集自 opensubtitles 电影字幕网站,
62 种语言、1782 个语种对的平行语料,资源相对比较丰富。
Wikititles Corpus:包括古吉拉特语 14 个语种,11 语言对的双语数据,数
据来源自维基百科的标题。
CzEng: 捷克语的料,数据洲法律、术和
域。
Yandex Corpus:俄语和英语的平行语料,爬取自互联网网页。
Tilde MODEL Corpus欧洲语言的多语言开放数据,包含多个数据集,数据来
自于经济、新闻、政府、旅游等门户网站。
Setimes Corpus:包括克罗地亚语、阿尔巴尼亚等 9 巴尔干语言,72 语言
对的双语数据,来源于东南欧时报的新闻报道。
TVsub收集来自电视剧集字幕的中英文对话语料,包含超过 200 万的句对,
用于对话领域和长距离上下文信息的研究。
Recipe Corpus:由 Cookpad 公司创建的日英食谱语料库,包含 10 万多个句对。