580 Chapter 16. 低资源神经机器翻译 肖桐 朱靖波
16.6 小结及拓展阅读
低资源机器翻译是机器翻译大规模应用所面临的挑战之一,因此也备受关注。一
方面,小样本学习技术的发展,使得研究人员可以有更多的手段对问题求解;另一
方面,从多语言之间的联系出发,也可以进一步挖掘不同语言背后的知识,并应用
于低资源机器翻译任务。本章从多个方面介绍了低资源机器翻译方法,并结合多语
言、零资源翻译等问题给出了不同场景下解决问题的思路。除此之外,还有几方面
工作值得进一步关注:
• 如何更高效地利用已有双语数据或单语数据进行数据增强始终是一个热点问
题。研究人员分别探索了源语言单语数据和目标语言单语数据的使用方法
[888, 890, 1012]
,
以及如何对已有双语数据进行修改的问题
[592, 879]
。经过数据增强得到的伪数据
的质量时好时坏,如何提高伪数据的质量,以及更好地利用伪数据进行训练也
是十分重要的问题
[1013, 1014, 1015, 1016, 1017]
。此外,还有一些工作对数据增强技术进行
了理论分析
[1018, 1019]
。
• 预训练模型也是自然语言处理的重要突破之一,也给低资源机器翻译提供了
新的思路。除了基于语言模型或掩码语言模型的方法,也有很多新的架构和模
型被提出,如排列语言模型、降噪自编码器等
[920, 1020, 1021, 1022]
。预训练技术也逐
渐向多语言领域扩展
[919, 994, 1023]
,甚至不再只局限于文本任务
[1024, 1025, 1026]
。对于如
何将预训练模型高效地应用到下游任务中,也进行了很多的经验性对比与分
析
[167, 1027, 1028]
。
• 多任务学习是多语言翻译的一种典型方法。通过共享编码器模块或是注意力
模块来进行一对多
[931]
或多对一
[563]
或多对多
[961]
的学习,然而这些方法需要为
每个翻译语言对设计单独的编码器和解码器,限制了其扩展性。为了解决以上
问题,研究人员进一步探索了用于多语言翻译的单个机器翻译模型的方法,也
就是本章提到的多语言单模型系统
[932, 1029]
。为了弥补多语言单模型系统中缺乏
语言表示多样性的问题,可以重新组织多语言共享模块,设计特定任务相关模
块
[1030, 1031, 1032, 1033]
;也可以将多语言单词编码和语言聚类分离,用一种多语言词
典编码框架共享单词级别的信息,有助于语言间的泛化
[1034]
;还可以将语言聚
类为不同的组,并为每个聚类单独训练一个多语言模型
[1035]
。
• 零资源翻译也是近几年受到广泛关注的研究方向
[1036, 1037]
。在零资源翻译中,仅
使用少量并行语料库(覆盖 k 个语言),一个模型就能在任何 k(k −1) 个语言对
之间进行翻译
[1038]
。但是,零资源翻译的性能通常很不稳定并且明显落后于有
监督的翻译方法。为了改善零资源翻译,可以开发新的跨语言正则化方法,例
如对齐正则化方法
[1039]
,一致性正则化方法
[1038]
;也可以通过反向翻译或基于枢
轴语言的翻译生成伪数据
[1036, 1040, 1041]
。