18. 机器翻译应用技术
随着机器翻译品质的不断提升,越来越多的应用需求被挖掘出来。但是,一
优秀的机器翻译引擎并不意味着机器翻译可以被成功应用。机器翻译技术落地需
“额外”考虑很多因素,例如,数据处理方式、交互方式、应用的领域等,甚至机器
翻译模型也要经过改造才能适应到不同的场景中。
本章将重点介绍机器翻译应用中所面临的一些实际问题,以及解决这些问题
以采用的策略。本章所涉及的内容较为广泛,一方面会大量使用本书前十七章的
型和方法,另一方面也会介绍新的技术手段。最终,本章会结合机器翻译的特点
示一些机器翻译可以应用的场景。
18.1 机器翻译的应用并不简单
近几年,无论从评测比赛的结果,还是论文发表数量上看,机器翻译的研究
谓火热。但是,客观的说,我们离机器翻译完美的应用还有相当的距离。这主要
因为,成熟的系统需要很多技术的融合。因此,机器翻译系统研发也是一项复杂
系统工程。而机器翻译研究大多是对局部模型和方法的调整,这也会造成一个现象:
很多论文里报道的技术方法可能无法直接应用于真实场景的系统。机器翻译面临
下几方面挑战:
机器翻译模型很脆弱。实验环境下,给定翻译任务,甚至给定训练和测试数据,
机器翻译模型可以表现得很好。但是,应用场景是不断变化的。经常会出现训
练数据缺乏、应用领域与训练数据不匹配、用户的测试方法与开发者不同等等
610 Chapter 18. 机器翻译应用技术 肖桐 朱靖波
一系列问题。特别是,对于不同的任务,神经机器翻译模型需要进行非常细致
的调整,理想中“一套包打天下”的模型和设置是不存在的。这些都导致一个
结果:直接使用既有机器翻译模型很难满足不断变化的应用需求。
机器翻译缺少针对场景的应用技术。目前为止,机器翻译的研究进展已经为我
们提供很好的机器翻译基础模型。但是,用户并不是简单的与这些模型“打交
道”,他们更加关注如何解决自身的业务需求,例如,机器翻译应用的交互方
式、系统是否可以自己预估翻译可信度等等。甚至,在某些场景中,用户对翻
译模型占用的存储空间和运行速度都有非常严格的要求。
优秀系统的研发需要长时间的打磨。工程打磨也是研发优秀机器翻译系统的必
备条件,有些时候甚至是决定性的。从科学研究的角度看,我们需要对更本质
的科学问题进行探索,而非简单的工程开发与调试。但是,对一个初级的系统
进行研究往往会掩盖掉“真正的问题”,因为很多问题在更优秀的系统中并不
存在。
下面本章将重点对机器翻译应用中的若干技术问题展开讨论,旨在给机器翻
应用提供一些可落地的思路。