600 Chapter 17. 多模态、多层次机器翻译 肖桐 朱靖波
主要包括改进输入
[1116, 1117, 1118, 1119]
、多编码器结构
[490, 1120, 1121]
、层次结构
[1122, 1123, 1124, 1125]
以
及基于缓存的方法
[1126, 1127]
等。
此外,篇章级机器翻译面临的另外一个挑战是数据稀缺。篇章级机器翻译所需要
的双语数据需要保留篇章边界,数量相比于句子级双语数据要少很多。除了在之前提
到的端到端方法中采用预训练或者参数共享的手段(见第十六章),也可以采用新的
建模手段来缓解数据稀缺问题。这类方法通常将篇章级翻译流程进行分离:先训练一
个句子级的翻译模型,再通过一些额外的模块来引入上下文信息。比如,在句子级翻
译模型的推断过程中,通过在目标端结合篇章级语言模型引入上下文信息
[1128, 1129, 1130]
,
或者基于句子级的翻译结果,使用两阶段解码等手段引入上下文信息,进而对句子
级翻译结果进行修正
[1131, 1132, 1133]
。
17.4.2 篇章级翻译的评价
BLEU 等自动评价指标能够在一定程度上反映译文的整体质量,但是并不能有
效地评估篇章级翻译模型的性能。这是由于很多标准测试集中需要篇章上下文的情
况相对较少。而且,n-gram 的匹配很难检测到一些具体的语言现象,这使得研究人
员很难通过 BLEU 得分来判断篇章级翻译模型的效果。
为此,研究人员总结了机器翻译任务中存在的上下文现象,并基于此设计了相
应的自动评价指标。比如针对篇章中代词的翻译问题,首先借助词对齐工具确定源
语言中的代词在译文和参考答案中的对应位置,然后通过计算译文中代词的准确率
和召回率等指标对代词翻译质量进行评价
[1107, 1134]
。针对篇章中的词汇衔接,使用词汇
链(Lexical Chain)
1
来获取能够反映词汇衔接质量的分数,然后通过加权的方式与
常规的 BLEU 或 METEOR 等指标结合在一起
[1135, 1136]
。针对篇章中的连接词,使用候
选词典和词对齐工具对源文中连接词的正确翻译结果进行计数,计算其准确率
[1137]
。
除了直接对译文打分,也有一些工作针对特有的上下文现象手工构造了相应的
测试套件用于评价翻译质量。测试套件中每一个测试样例都包含一个正确翻译的结
果,以及多个错误结果,一个理想的翻译模型应该对正确的翻译结果评价最高,排
名在所有错误结果之上, 此时就可以根据模型是否能挑选出正确翻译结果来评估其
性能。这种方法可以很好地衡量翻译模型在某一特定上下文现象上的处理能力,比
如词义消歧
[1138]
、代词翻译
[1117, 1139]
和一些衔接问题
[1132]
等。但是该方法也存在使用范
围受限于测试集的语种和规模的缺点,因此扩展性较差。
17.4.3 篇章级翻译的建模
在理想情况下,篇章级翻译应该以整个篇章为单位作为模型的输入和输出。然
而由于现实中篇章对应的序列过长,因此直接建模整个篇章序列难度很大,这使得
主流的序列到序列模型很难直接使用。一种思路是采用能够处理超长序列的模型对
篇章序列建模,比如,使用第十五章中提到的处理长序列的 Transformer 模型就是一
1
词汇链指篇章中语义相关的词所构成的序列。