3.2 中文分词 83
Interesting → Interest/ing selection → se/lect/ion procession → pro/cess/ion
Interested → Interest/ed selecting → se/lect/ing processing → pro/cess/ing
Interests → Interest/s selected → se/lect/ed processed → pro/cess/ed
词法分析的重要性在自然语言处理领域已经有共识。如果切分的颗粒度很大,获
得单词的歧义通常比较小,比如“中华人民共和国”整体作为一个单词不存在歧义,
而如果单独的一个单词“国”,可能会代表“中国”、“美国”等不同的国家,存在歧
义。但是随着切分颗粒度的增大,特定单词出现的频次也随之降低,低频词容易和
噪音混淆,系统很难对其进行学习。因此,处理这些问题并开发适合翻译任务的分
词系统是机器翻译的第一步。
3.2.1 基于词典的分词方法
计算机并不能像人类一样在概念上理解“词”,因此需要使用其他方式让计算机
“学会”如何分词。一个最简单的方法就是给定一个词典,在这个词典中出现的汉字
组合就是所定义的“词”。也就是说,可以通过一个词典定义一个标准,符合这个标
准定义的字符串都是合法的“词”。
在使用基于词典的分词方法时,只需预先加载词典到计算机中,扫描输入句子,
查询其中的每个词串是否出现在词典中。如图3.4所示,有一个包含六个词的词典,给
定输入句子“确实现在物价很高”后,分词系统自左至右遍历输入句子的每个字,发
现词串“确实”在词典中出现,说明“确实”是一个“词”。之后,重复这个过程。
1: 很
2: 高
3: 现在
4: 物价
5: 确实
6: 实现
分词词典
确
实
现
在
物
价
很
高
确
实
现
在
物
价
很
高
起始
起始
起始
起始
起始
命中:第 2 号单词
图 3.4 基于词典进行分词的实例
但是,基于词典的分词方法很“硬”。这是因为自然语言非常灵活,经常出现歧
义。图3.5就给出了上面例子中的交叉型歧义,从词典中查看,“实现”和“现在”都
是合法的单词,但是在句子中二者有重叠,因此词典无法告诉系统哪个结果是正确
的。
类似的例子在生活中也很常见。再比如“答辩结束的和尚未答辩的同学都请留在
教室”一句中,正常的分词结果是“答辩/结束/的/和/尚未/答辩/的/同学/都/请/留在/教
室”,但是由于“尚未”、“和尚”都是常见词汇,使用基于词典的分词方法在这时很