30 Chapter 1. 机器翻译简介 肖桐 朱靖波
1.2.5 机器翻译的爆发
进入二十一世纪,统计机器翻译拉开了黄金发展期的序幕。在这一时期,各种
基于统计机器翻译模型层出不穷,经典的基于短语的模型和基于句法的模型也先后
被提出。在 2013 年以后,机器学习的进步带来了机器翻译技术的进一步提升。特别
是基于神经网络的深度学习方法在机器视觉、语音识别中被成功应用,带来性能的
飞跃式提升。很快,深度学习方法也被用于机器翻译。
实际上,对于机器翻译任务来说,深度学习方法被广泛使用也是一种必然,原
因如下:
• 第一,端到端学习不依赖于过多的先验假设。在统计机器翻译时代,模型设计
或多或少会对翻译的过程进行假设,称为隐藏结构假设。比如基于短语的模型
假设:源语言和目标语言都会被切分成短语序列,这些短语之间存在某种对齐
关系。这种假设既有优点也有缺点:一方面,该假设有助于模型融入人类的先
验知识,比如,统计机器翻译中一些规则的设计就借鉴了语言学的相关概念;
另一方面,假设越多模型受到的限制也越多。如果假设是正确的,模型可以很
好地描述问题。但如果假设错误,那么模型就可能产生偏差。深度学习不依赖
于先验知识,也不需要手工设计特征,模型直接从输入和输出的映射上进行学
习(端到端学习),这样也在一定程度上避免了隐藏结构假设造成的偏差。
• 第二,神经网络的连续空间模型有更强的表示能力。机器翻译中的一个基本问
题是:如何表示一个句子?统计机器翻译把句子的生成过程看作是短语或者规
则的推导,这本质上是一个离散空间上的符号系统。深度学习把传统的基于离
散化的表示变成了连续空间的表示。比如,用实数空间的分布式表示代替了离
散化的词语表示,而整个句子可以被描述为一个实数向量。这使得翻译问题可
以在连续空间上描述,进而大大缓解了传统离散空间模型维度灾难等问题。更
重要的是,连续空间模型可以用梯度下降等方法进行优化,具有很好的数学性
质并且易于实现。
• 第三,深度网络学习算法的发展和图形处理单元(Graphics Processing Unit,GPU)
等并行计算设备为训练神经网络提供了可能。早期的基于神经网络的方法一直
没有在机器翻译甚至自然语言处理领域得到大规模应用,其中一个重要的原因
是这类方法需要大量的浮点运算,但是以前计算机的计算能力无法达到这个要
求。随着 GPU 等并行计算设备的进步,训练大规模神经网络也变为了可能。现
在已经可以在几亿、几十亿,甚至上百亿句对上训练机器翻译系统,系统研发
的周期越来越短,进展日新月异。
今天,神经机器翻译已经成为新的范式,与统计机器翻译一同推动了机器翻译
技术与应用产品的发展。比如,从世界上著名的机器翻译比赛 WMT 和 CCMT 中就
可以看出这个趋势。如图1.5所示,其中左图是 WMT 19 国际机器翻译比赛的参赛队
伍的截图,这些参赛队伍基本上都在使用深度学习完成机器翻译的建模。而在 WMT