
624 随笔 肖桐 朱靖波
译技术与神经机器翻译技术互补性融合;有的引入预训练技术来改善机器翻译
品质等等。总体来说,这些思路都具有良好的研究价值,但是从应用角度来说,
构建可实用的机器翻译系统,还需要考虑技术落地可行性。比如大规模知识图
谱构建的代价和语言分析技术的精度如何,预训练技术对富资源场景下机器翻
译的价值等。
• 错误驱动,即根据用户对机器翻译译文的反馈与纠正,完善机器翻译模型的过
程。机器翻译一直被诟病:用户不知道如何有效地干预纠错,来帮助机器翻译
系统越做越好,毕竟谁都不希望它“屡教不改”。基于规则的方法和统计机器
翻译方法相对容易实现人工干预纠错,实现手段也比较丰富,而神经机器翻译
方法很多时候被看做是黑箱,其运行机理与离散的符号系统有很大差别,难以
用传统方式有效地实现人工干预纠错。目前,有研究人员通过引入外部知识库
(用户双语术语库)来实现对未登录词翻译的干预纠错;也有的提出使用增量
式训练的方法不断迭代优化模型,取得了一些进展;还有研究人员通过融合不
同技术来实现更好的机器翻译效果,如引入基于规则的翻译前处理和后处理,
或者引入统计机器翻译技术优化译文选择等。这些方法的代价不低,甚至很高,
并且无法保障对机器翻译性能提升的效果,有时可能会降低翻译品质(有点像
“跷跷板”现象)。总体来说,这个方向的研究成果还不够丰富,但对用户体验
来说非常重要。如果能采用隐性反馈学习方法,在用户不知不觉中不断改善、
优化机器翻译品质,就非常酷了,这也许会成为将来的一个研究热点。
除了翻译品质维度以外,机器翻译还可以从以下三个维度来讨论:语种维度、领
域维度和应用模式维度。关于语种维度,机器翻译技术应该为全球用户服务,提供所
有国家至少一种官方语言到其他国家语言的自动互译功能。该维度面临的最大问题
是双语数据稀缺。关于领域维度,通用领域翻译系统的翻译能力,对于垂直领域数
据来说是不足的。最典型的问题是不能恰当地翻译垂直领域术语,计算机不能无中
生有。比较直接可行的解决方案至少有两个,一是引入垂直领域术语双语词典来改
善机器翻译效果;二是收集加工一定规模的垂直领域双语句对来优化翻译模型。这
两种工程方法虽然简单,但效果不错,并且两者结合对于翻译模型性能的提升帮助
更大。但很多时候垂直领域双语句对的收集代价太高,可行性低,因此垂直领域翻
译问题本质上就转换成为垂直领域资源稀缺问题和领域自适应学习问题。除此之外,
小样本学习、迁移学习等机器学习技术也被一些研究人员用来解决垂直领域翻译问
题。关于应用模式维度,可以从下面几个方面进行讨论:
• 通常,机器翻译的典型应用包括在线翻译公有云服务,用户接入非常简单,只
需要联网使用浏览器就可以自由免费使用。在某些行业,用户对数据翻译安全
性和保密性的要求非常高,其中可能还会涉及个性化定制,这是在线翻译公有
云服务无法满足的,于是,在本地部署机器翻译私有云,应用离线机器翻译技
术和服务成了新的应用模式。在本地部署私有云的问题在于:需要用户自己购
买 GPU 服务器并建机房,对硬件的投入高。也许将来机器翻译领域会出现新
的应用模式:类似服务托管模式的在线私有云或专有云,以及混合云服务(公