406 Chapter 11. 基于卷积神经网络的模型 肖桐 朱靖波
11.4 小结及拓展阅读
卷积是一种高效的神经网络结构,在图像、语音处理等领域取得了令人瞩目的
成绩。本章介绍了卷积的概念及其特性,并对池化、填充等操作进行了讨论。本章介
绍了具有高并行计算能力的机器翻译范式,即基于卷积神经网络的编码器-解码器框
架。其在机器翻译任务上表现出色,并大幅度缩短了模型的训练周期。除了基础部
分,本章还针对卷积计算进行了延伸,内容涉及逐通道卷积、逐点卷积、轻量卷积和
动态卷积等。除了上述提及的内容,卷积神经网络及其变种在文本分类、命名实体
识别、关系分类、事件抽取等其他自然语言处理任务上也有许多应用
[102, 498, 522, 523, 524]
。
和机器翻译任务不同的是,文本分类任务侧重于对序列特征的提取,然后通过
压缩后的特征表示做出类别预测。卷积神经网络可以对序列中一些 n-gram 特征进行
提取,也可以用在文本分类任务中,其基本结构包括输入层、卷积层、池化层和全连
接层。除了在本章介绍过的 TextCNN 模型
[498]
,不少研究工作在此基础上对其进行改
进。比如,通过改变输入层来引入更多特征
[525, 526]
,对卷积层的改进
[523, 527]
以及对池
化层的改进
[497, 523]
。在命名实体识别任务中,同样可以使用卷积神经网络来进行特征
提取
[102, 522]
,或者使用更高效的空洞卷积对更长的上下文进行建模
[528]
。此外,也有一
些研究工作尝试使用卷积神经网络来提取字符级特征
[529, 530, 531]
。