582 Chapter 17. 多模态、多层次机器翻译 肖桐 朱靖波
广义上,当前句子以外的信息都可以被看作一种上下文。比如,图17.1中,需要
把英语句子“A girl jumps off a bank .”翻译为汉语。但是,其中的“bank”有多个含
义,因此仅仅使用英语句子本身的信息可能会将其翻译为“银行”,而非正确的译文
“河床”。但是,图17.1中也提供了这个英语句子所对应的图片,显然图片中直接展示
了河床,这时“bank”是没有歧义的。通常也会把这种使用图片和文字一起进行机器
翻译的任务称作多模态机器翻译(Multi-Modal Machine Translation)。
图片:
源语言:
A girl jumps off a bank .
翻译模型
目标语言:一个/女孩/从/河床/
上/跳下来/。
图 17.1 多模态机器翻译实例
模态(Modality)是指某一种信息来源。例如,视觉、听觉、嗅觉、味觉都可以被
看作是不同的模态。因此视频、语音、文字等都可以被看作是承载这些模态的媒介。
在机器翻译中使用多模态这个概念,是为了区分某些不同于文字的信息。除了图像
等视觉模态信息,机器翻译也可以利用听觉模态信息。比如,直接对语音进行翻译,
甚至直接用语音表达出翻译结果。
除了不同信息源所引入的上下文,机器翻译也可以利用文字本身的上下文。比
如,翻译一篇文章中的某个句子时,可以根据整个篇章的内容进行翻译。显然这种
篇章的语境是有助于机器翻译的。在本章接下来的内容中,会对机器翻译中使用不
同上下文(多模态和篇章信息)的方法展开讨论。