13.2 正则化 439
13.2 正则化
正则化是机器学习中的经典技术,通常用于缓解过拟合问题。正则化的概念源
自线性代数和代数几何。在实践中,它更多的是指对反问题(The Inverse Problem)的
一种求解方式。假设输入 x 和输出 y 之间存在一种映射 f:
y = f(x) (13.1)
反问题是指:当观测到 y 时,能否求出 x。反问题对应了很多实际问题,比如,可以
把 y 看作经过美化的图片,x 看作原始的图片,反问题就对应了图片还原。机器翻译
的训练也是一种反问题,因为可以把 y 看作是正确的译文,x 看作是输入句子或者模
型参数
2
。
理想的情况下,研究人员希望反问题的解是适定的(Well-posed)。所谓适定解,
需要满足三个条件:解是存在的、解是唯一的、解是稳定的(即 y 微小的变化会导
致 x 微小的变化,也被称作解连续)。所有不存在唯一稳定解的问题都被称作不适定
问题(Ill-posed Problem)。对于机器学习问题,解的存在性比较容易理解。解的唯一
性大多由问题决定。比如,如果把描述问题的函数 f(·) 看作一个 n ×n 矩阵 A,x 和
y 都看作是 n 维向量。那么 x 不唯一的原因在于 A 不满秩(非奇异矩阵)。不过,存
在性和唯一性并不会对机器学习方法造成太大困扰,因为在实践中往往会找到近似
的解。但是,解的稳定性却给神经机器翻译带来了很大的挑战。因为神经机器翻译
模型非常复杂,里面存在大量的矩阵乘法和非线性变换。这导致
f
(
·
)
往往是不稳定
的,也就是说,神经机器翻译中输出 y 的微小变化会导致输入 x 的巨大变化。比如,
在系统研发中经常会发现,即使训练样本发生很小的变化,模型训练得到的参数都
会有非常明显的区别。不仅如此,在神经机器翻译模型中,稳定性训练还面临两方
面问题:
• 观测数据不充分。由于语言表达的多样性,训练样本只能覆盖非常有限的翻译
现象。从样本的表示空间上看,对于没有观测样本的区域,根本无法知道真实
解的样子,因此也很难描述这些样本的性质,更不用说稳定性训练了。
• 数据中存在噪声。噪声问题是稳定性训练最大的挑战之一。因为,即使是很小的
噪声,也可能会导致解的巨大变化。
以上问题带来的现象就是过拟合。因为训练数据有限且存在噪声,因此模型参数
会过分拟合噪声数据。而且,这样的模型参数又与真实(理想)的模型参数相差很远。
正则化正是一种解决过拟合现象的方法。有时候,正则化也被称作降噪(Denoising)
,虽然它的出发点并不只是去除噪声的影响。图13.4对比了不同函数对二维空间中一
些数据点的拟合情况。在过拟合现象中,函数可以完美的拟合所有的数据点,即使
有些数据点是噪声。
2
在训练中,如果把源语言句子看作是不变的量,这时函数 f(·) 的输入只有模型参数。