3.5 小结及拓展阅读 107
3.5 小结及拓展阅读
本章将统计建模的思想应用到三个自然语言处理任务中,包括:中文分词、
名实体识别、短语结构句法分析。它们和机器翻译有着紧密的联系,往往作为机
翻译系统输入和输出的数据加工方法。可以发现:经过适当的假设和化简,统计
型可以很好的描述复杂的自然语言处理问题。这种建模手段也会在后续章节的内
中被广泛使用。
由于本章重点介绍如何用统计方法对自然语言处理任务进行建模,因此并没
对具体的问题展开深入讨论。有几方面内容,读者可以继续关注:
在建模方面,本章描述了基于 1-gram 语言模型的分词、基于上下文无关文法的
句法分析等,它们都是基于人工先验知识进行模型设计的思路。也就是,问题
所表达的现象被“一步一步”生成出来。这是一种典型的生成式建模思想,
把要解决的问题看作一些观测结果的隐含变量(比如,句子是观测结果,分词
结果是隐含在背后的变量),之后通过对隐含变量生成观测结果的过程进行建
模,以达到对问题进行数学描述的目的。这类模型一般需要依赖一些独立性假
设,假设的合理性对最终的性能有较大影响。相对于生成模型,另一类方法是
判别模型Discriminative Model本章序列标注内容中提到一些模型就是判别
模型,如条件随机场
[99]
它直接描述了从隐含变量生成观测结果的过程,这样
对问题的建模更加直接,同时这类模型可以更加灵活的引入不同的特征。判别
模型在自然语言处理中也有广泛应
[109, 110, 111, 112, 113]
。在本书的第七章也会使
到判别模型。
事实上,本章并没有对分词、句法分析中的预测问题进行深入介绍。比如,如
何找到概率最大的分词结果?这个问题的解决可以直接借鉴第二章中介绍的搜
索方法:对于基于 n-gram 语言模型的分词方法,可以使用动态规划方法
[114]
行搜索;在不满足动态规划的使用条件时,可以考虑使用更加复杂的搜索策略,
并配合一定的剪枝方法找到最终的分词结果。实际上,无论是基于 n-gram
言模型的分词还是简单的上下文无关文法都有高效的推断方法。比如,n-gram
语言模型可以被视为概率有限状态自动机,因此可以直接使用成熟的自动机工
[115]
对于更复杂的句法分析问题,可以考虑使用移进- 规约算法Shift-Reduce
Algorithm)来解决预测问题
[116]
看,
注问题,例如本章介绍的分词和命名实体识别。此外序列标注还可以被扩展到
性标
[117]
、组
[118]
关键
[119]
、词
[120]
等任务,
着重介绍了传统的方法,前沿方法大多与深度学习相结合,感兴趣的读者可以
自行了解,其中比较有代表性的使用双向长短时记忆网络对序列进行建模,
果,如,
BiLSTM-CRF
[121]
与卷积神经网络相结合的模型BiLSTM-CNNs
[122]
108 Chapter 3. 词法分析和语法分析基础 肖桐 朱靖波
简单的 Softmax 结构相结合的模型
[123]
等。此外,对于序列标注任务,模型性能
很大程度上依赖对输入序列的表示能力,因此基于预训练语言模型的方法也非
常流行
[124]
,如:BERT
[125]
GPT
[126]
XLM
[127]
等。