17. 多模态、多层次机器翻译
基于上下文的翻译是机器翻译的一个重要分支。传统方法中,机器翻译通常被
定义为对一个句子进行翻译的任务。但是,现实中每句话往往不是独立出现的。比
如,人们会使用语音进行表达,或者通过图片来传递信息,这些语音和图片内容都
可以伴随着文字一起出现在翻译场景中。此外,句子往往存在于段落或者篇章之中,
如果要理解这个句子,也需要整个段落或者篇章的信息,而这些上下文信息都是机
器翻译可以利用的。
本章在句子级翻译的基础上将问题扩展为更大的上下文中的翻译,具体包括语
音翻译、图像翻译、篇章翻译三个主题。这些问题均为机器翻译应用中的真实需求。
同时,使用多模态等信息也是当下自然语言处理的热点研究方向之一。
17.1 机器翻译需要更多的上下文
长期以来,机器翻译都是指句子级翻译。主要因在于,句子级的翻译建模可
以大大简化问题,使得机器翻译方法更容易被实践和验证。但是人类使用语言的过
程并不是孤立地在一个个句子上进行的。这个问题可以类比于人类学习语言的过程:
小孩成长过程中会接受视觉、听觉、触觉等多种信号,这些信号的共同作用使得他
们产生对客观世界的“认识”同时促使他们使用“语言”进行表达。从这个角度说,
语言能力并不是由单一因素形成的,它往往伴随着其他信息的相互作用,比如,当
人们翻译一句话的时候,会用到看到的画面、听到的语调、甚至前面说过的句子中
的信息。
582 Chapter 17. 多模态、多层次机器翻译 肖桐 朱靖波
广义上,当前句子以外的信息都可以被看作一种上下文。比如,17.1中,需要
把英语句子A girl jumps off a bank .翻译为汉语。但是,其中的bank有多个含
义,因此仅仅使用英语句子本身的信息可能会将其翻译为“银行”而非正确的译文
“河床”但是,17.1中也提供了这个英语句子所对应的图片,显然图片中直接展示
了河床,这时bank是没有歧义的。通常也会把这种使用图片和文字一起进行机器
翻译的任务称作多模态机器翻译Multi-Modal Machine Translation)。
图片:
源语言:
A girl jumps off a bank .
翻译模型
目标语言:一个/女孩//河床/
/跳下来/
17.1 多模态机器翻译实例
模态Modality是指某一种信息来源。例如,视觉、听觉、嗅觉、味觉都可以被
看作是不同的模态。因此视频、语音、文字等都可以被看作是承载这些模态的媒介。
在机器翻译中使用多模态这个概念,是为了区分某些不同于文字的信息。除了图像
等视觉模态信息,机器翻译也可以利用听觉模态信息。比如,直接对语音进行翻译,
甚至直接用语音表达出翻译结果。
除了不同信息源所引入的上下文,机器翻译也可以利用文字本身的上下文。比
如,翻译一篇文章中的某个句子时,可以根据整个篇章的内容进行翻译。显然这种
篇章的语境是有助于机器翻译的。在本章接下来的内容中,会对机器翻译中使用不
同上下文(多模态和篇章信息)的方法展开讨论。