48 Chapter 2. 统计语言建模基础 肖桐 朱靖波
发生。通过大量的重复试验,能发现具有某种规律性的事件叫做随机事件。
随机变量(Random Variable)是对随机事件发生可能状态的描述,是随机事件的
数量表征。设 Ω = {ω} 为一个随机试验的样本空间,X = X(ω) 就是定义在样本空
间 Ω 上的单值实数函数,即 X = X(ω) 为随机变量,记为 X。随机变量是一种能随
机选取数值的变量,常用大写的英语字母或希腊字母表示,其取值通常用小写字母
来表示。例如,用
A
表示一个随机变量,用
a
表示变量
A
的一个取值。根据随机变
量可以选取的值的某些性质,可以将其划分为离散变量和连续变量。
离散变量是在其取值区间内可以被一一列举、总数有限并且可计算的数值变量。
例如,用随机变量 X 代表某次投骰子出现的点数,点数只可能取 1∼6 这 6 个整数,
X 就是一个离散变量。
连续变量是在其取值区间内连续取值无法被一一列举、具有无限个取值的变量。
例如,图书馆的开馆时间是 8:30-22:00,用 X 代表某人进入图书馆的时间,时间的
取值范围是 [8:30, 22:00] 这个时间区间,X 就是一个连续变量。
概率(Probability)是度量随机事件呈现其每个可能状态的可能性的数值,本质上
它是一个测度函数
[35, 36]
。概率的大小表征了随机事件在一次试验中发生的可能性大
小。用 P (·) 表示一个随机事件的可能性,即事件发生的概率。比如 P (太阳从东方升起)
表示“太阳从东方升起”的可能性,同理,P (A = B) 表示的就是“A = B”这件事
的可能性。
在实际问题中,往往需要得到随机变量的概率值。但是,真实的概率值可能是
无法准确知道的,这时就需要对概率进行估计(Estimation),得到的结果是概率的
估计值(Estimate)。概率值的估计是概率论和统计学中的经典问题,有十分多样的
方法可以选择。比如,一个很简单的方法是利用相对频次作为概率的估计值。如果
{x
1
,x
2
,. .. ,x
n
} 是一个试验的样本空间,在相同情况下重复试验 N 次,观察到样本
x
i
(1 ≤i ≤n) 的次数为 n(x
i
),那么 x
i
在这 N 次试验中的相对频率是
n(x
i
)
N
。当 N 越
来越大时,相对概率也就越来越接近真实概率 P (x
i
),即 lim
N→∞
n(x
i
)
N
= P (x
i
)。实
际上,很多概率模型都等同于相对频次估计。比如,对于一个服从多项式分布的变
量,它的极大似然估计就可以用相对频次估计实现。
概率函数是用函数形式给出离散变量每个取值发生的概率,其实就是将变量的
概率分布转化为数学表达形式。如果把 A 看做一个离散变量,a 看做变量 A 的一个
取值,那么 P (A) 被称作变量 A 的概率函数,P (A = a) 被称作 A = a 的概率值,简
记为 P (a ) 。例如,在相同条件下掷一个骰子 50 次,用 A 表示投骰子出现的点数这
个离散变量,a
i
表示点数的取值,P
i
表示 A = a
i
的概率值。表??为 A 的概率分布,
给出了 A 的所有取值及其概率。
表 2.1 离散变量 A 的概率分布
A a
1
= 1 a
2
= 2 a
3
= 3 a
4
= 4 a
5
= 5 a
6
= 6
P
i
P
1
=
4
25
P
2
=
3
25
P
3
=
4
25
P
4
=
6
25
P
5
=
3
25
P
6
=
5
25