406 Chapter 11. 基于卷积神经网络的模型肖桐朱靖波

11.4 小结及拓展阅读

卷积是一种高效的神经网络结构，在图像、语音处理等领域取得了令人瞩目的

成绩。本章介绍了卷积的概念及其特性，并对池化、填充等操作进行了讨论。本章介

绍了具有高并行计算能力的机器翻译范式，即基于卷积神经网络的编码器-解码器框

架。其在机器翻译任务上表现出色，并大幅度缩短了模型的训练周期。除了基础部

分，本章还针对卷积计算进行了延伸，内容涉及逐通道卷积、逐点卷积、轻量卷积和

动态卷积等。除了上述提及的内容，卷积神经网络及其变种在文本分类、命名实体

识别、关系分类、事件抽取等其他自然语言处理任务上也有许多应用

[102, 498, 522, 523, 524]

。

和机器翻译任务不同的是，文本分类任务侧重于对序列特征的提取，然后通过

压缩后的特征表示做出类别预测。卷积神经网络可以对序列中一些 n-gram 特征进行

提取，也可以用在文本分类任务中，其基本结构包括输入层、卷积层、池化层和全连

接层。除了在本章介绍过的 TextCNN 模型

[498]

，不少研究工作在此基础上对其进行改

进。比如，通过改变输入层来引入更多特征

[525, 526]

，对卷积层的改进

[523, 527]

以及对池

化层的改进

[497, 523]

。在命名实体识别任务中，同样可以使用卷积神经网络来进行特征

提取

[102, 522]

，或者使用更高效的空洞卷积对更长的上下文进行建模

[528]

。此外，也有一

些研究工作尝试使用卷积神经网络来提取字符级特征

[529, 530, 531]

。