3.1 问题概述 81
一般来说,在送入机器翻译系统前需要对文字序列进行处理和加工,这个过程
被称为预处理(Pre-processing)。类似地,在机器翻译模型输出译文后进行的处理被
称作后处理(Post-processing)。这两个过程对机器翻译性能影响很大,比如,对于神
经机器翻译系统来说,不同的分词策略可能会造成翻译性能的天差地别。
值得注意的是,有些观点认为,对于机器翻译来说,不论是分词还是句法分析,
并不要求符合人的认知和语言学约束。换句话说,机器翻译所使用的“单词”和“结
构”本身并不是为了符合人类的解释,它们更直接目的是为了进行翻译。从系统开
发的角度,有时候即使使用一些与人类的语言习惯有差别的处理,仍然会带来性能
的提升,比如在神经机器翻译中,在传统分词的基础上进一步使用双字节编码(Byte
Pair Encoding,BPE)子词切分
[89]
会使得机器翻译性能大幅提高。当然,自然语言处
理中语言学信息的使用一直是学界关注的焦点。甚至关于语言学结构对机器翻译是
否有作用这个问题也有一些不同的观点。但是不能否认的是,无论是语言学的知识,
还是计算机自己学习到的知识,对机器翻译都是有价值的。在后续章节会看到,这
两种类型的知识对机器翻译帮助很大。
剩下的问题是如何进行句子的切分和结构的分析。思路有很多,一种常用的方
法是对问题进行概率化,用统计模型来描述问题并求解之。比如,一个句子切分的
好坏,并不是非零即一的判断,而是要估计出这种切分的可能性大小,最终选择可
能性最大的结果进行输出。这也是一种典型的用统计建模的方式来描述自然语言处
理问题的方法。
本章将会对上述问题及求解问题的方法进行介绍。并将统计建模应用到中文分
词、命名实体识别和短语结构句法分析等任务中。