98 Chapter 3. 词法分析和语法分析基础 肖桐 朱靖波
3.4 句法分析
前面已经介绍了什么叫做“词”以及如何对分词问题进行统计建模。同时,也
介绍了如何对多个单词构成的命名实体进行识别。无论是分词还是命名实体识别都
是句子浅层信息的一种表示。对于一个自然语言句子来说,它更深层次的结构信息
可以通过更完整的句法结构来描述,而句法信息也是机器翻译和自然语言处理其他
任务中常用的知识之一。
3.4.1 句法树
句法(Syntax)是研究句子的每个组成部分和它们之间的组合方式。一般来说,
句法和语言是相关的,比如,英文是主谓宾结构,而日语是主宾谓结构,因此不同的
语言也会有不同的句法描述方式。自然语言处理领域最常用的两种句法分析形式是
短语结构句法分析(Phrase Structure Parsing)和依存句法分析(Dependency Parsing)。
图3.15展示了这两种的句法表示形式的实例。其中,左侧是短语结构树,它描述的是
短语的结构功能,比如“吃”是动词(记为 VV),“鱼”是名词(记为 NN),“吃/鱼”
组成动词短语,这个短语再与“喜欢”这一动词组成新的动词短语。短语结构树的
每个子树都是一个句法功能单元,比如,子树 VP(VV(吃) NN(鱼)) 就表示了“吃/鱼”
这个动词短语的结构,其中子树根节点 VP 是句法功能标记。短语结构树利用嵌套的
方式描述了语言学的功能,短语结构树中,每个词都有词性 (或词类),不同的词或者
短语可以组成名动结构、动宾结构等语言学短语结构,短语结构句法分析一般也被
称为成分句法分析(Constituency Parsing)或完全句法分析(Full Parsing)。
图3.15右侧展示的是另一种句法结构,被称作依存句法树。依存句法树表示了
句子中单词和单词之间的依存关系。比如,从这个例子可以了解,“猫”依赖“喜
欢”,“吃”依赖“喜欢”,“鱼”依赖“吃”。
IP 句子
VP 动
VP 动
NN名词
鱼
VV动词
吃
VV动词
喜欢
NP 名
NN名词
猫
猫
喜欢
吃
鱼
主谓
连动
谓宾
图 3.15 短语结构树 (左) 和依存树 (右)
短语结构树和依存句法树的结构和功能有很大不同。短语结构树的叶子节点是
单词,中间节点是词性或者短语句法标记。在短语结构句法分析中,通常把单词称
作终结符(Terminal),把词性称为预终结符(Pre-terminal),而把其他句法标记称为
非终结符(Non-terminal)。依存句法树没有预终结符和非终结符,所有的节点都是