596 Chapter 17. 多模态、多层次机器翻译 肖桐 朱靖波
展示的是一种基于模版的方法,这种方法需要在图像上提取视觉特征,然后把内容
填在实现设计好的模板当中,这种方法的缺点是生成的图像描述过于呆板,“像是在
一个模子中刻出来的”说的就是这个意思。近几年来,受到机器翻译领域等任务的
启发,图像描述生成任务也开始大量使用编码器-解码器框架。这里会从基础的图像
描述范式编码器-解码器框架展开
[1084, 1085]
,并从编码器的改进和解码器的改进两个方
面进行介绍。
1. 基础框架
在编码器-解码器框架中,编码器将输入的图像转换为一种新的“表示”形式,这
种“表示”包含了输入图像的所有信息。之后解码器把这种“表示”转换为自然语
言描述。比如,可以通过卷积神经网络提取图像特征为一个向量表示。然后,利用长
短时记忆网络(LSTMs)解码生成文字描述,这个过程中与机器翻译的解码过程类
似。这种建模方式存在与17.3.1小节描述一样的问题:生成的描述单词不一定需要所
有的图像信息,将全局的图像信息送入模型中,可能会引入噪音。这时可以使用注
意力机制来缓解该问题
[1085]
。
2. 编码器的改进
要想使编码器-解码器框架在图像描述生成中充分发挥作用,编码器也要更好
的表示图像信息。对于编码器的改进,通常体现在向编码器中添加图像的语义信
息
[1086, 1087, 1088]
和位置信息
[1087, 1089]
。
图像的语义信息一般是指图像中存在的实体、属性、场景等等。如图17.15所示,
从图像中利用属性或实体检测器提取出“jump”、“girl”、“river”、“bank”等属
性词和实体词,将他们作为图像的语义信息编码的一部分,再利用注意力机制计算
目标语言单词与这些属性词或实体词之间的注意力权重
[1086]
。当然,除了图像中的实
体和属性作为语义信息外,也可以将图片的场景信息加入到编码器当中
[1088]
。有关如
何做属性、实体和场景的检测,涉及到目标检测任务的工作,例如 Faster-RCNN
[506]
、
YOLO
[1090, 1091]
等等, 这里不再赘述。
以上的方法大都是将图像中的实体、属性、场景等映射到文字上,并把这些信
息显式地输入到编码器中。除此之外,一种方法是把图像中的语义特征隐式地引入
编码中
[1087]
。例如,图像数据可以分解为三个通道(红、绿、蓝),简单来说,就是将
图像的每一个像素点按照红色、绿色、蓝色分成三个部分,这样就将图像分成了三
个通道。在很多图像中,不同通道伴随的特征是不一样的,可以将其作用于编码器。
另外一种方法是基于位置信息的编码增强。位置信息指的是图像中对象(物体)的
位置。利用目标检测技术检测系统获得图中的对象和对应的特征,这样就确定了图
中的对象位置。显然,这些信息可以加强编码器的表示能力
[1092]
。