参数估计

在概率统计或者数据挖掘的各种模型中,我们经常会遇到各种参数估计的问题。本文主要通过两个例子来介绍参数估计的常用方法。 例子1:设总体 $X$ 的均值 $\mu$ 和方差 $\sigma^2$均未知, 已知$X_1, X_2, \ldots, X_n$ 是一个样本, 估计均值 $\mu$ 和方差 $\sigma^2$。 例子2:抛一枚硬币,正面朝上的概率为 $\theta$,已知一共抛了20次,其中12次朝上,8次朝下。问抛第21次的时候,硬币应该是朝上还是朝下?


1 点估计

设总体X的分布函数形式已知,但有一个或者多个未知参数,借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。点估计实际上代表了频率学派的观点,频率学派认为参数是客观存在的,只是我们不知道罢了。只要参数求出来了,给定一个 $X$ ,相应的 $y$ 也就确定了。常用的点估计方法有矩估计法、最大似然估计法和最大后验估计。

1.1 矩估计

分别计算样本矩和总体矩的前k阶矩,利用样本矩依概率收敛于总体矩的性质,构造相应的方程组,用方程组的解作为参数的估计量,这时候的估计量称为矩估计量。 用矩估计法解上面的例子1,易知总体矩:

计算样本矩:

联立方程组:

解得:

1.2 最大似然估计(Maximum Likelihood Estimation)

在讲最大似然(ML)估计之前,我们先来回顾一下贝叶斯公式:

这个公式用对应的术语来表示的话:

设总体$X$属于离散性,其分布律为 $P(X=x)=p(x | \theta)$,形式已知,但参数$\theta$未知。已知$X_1, X_2, \ldots, X_n$ 是一个样本,则$X_1, X_2, \ldots, X_n$的联合分布律为:

设$x_1, x_2, \ldots, x_n$是相应于样本的一个样本值,已知样本取到$x_1, x_2, \ldots, x_n$的概率,也即事件 ${ X_1=x_1, X_2 = x_2, \ldots, X_n = x_n}$ 发生的概率为:

这一概率随 $\theta$的变化而变化,是$\theta$的函数,称为样本的似然函数。用似然函数取得最大值的$\theta$作为原分布律未知参数的估计值,称为极大似然估计值。求解的时候一般会把这个似然函数取对数,转化成求和的形式。

当总体$X$属于连续型时,考虑的是样本$X_1, X_2, \ldots, X_n$ 落到$x_1, x_2, \ldots, x_n$ 的领域内的概率,和离散性的表达形式一样。用最大似然估计解上面的例子1:

$X$的概率密度为:

似然函数为:

取对数,然后分别对 $\mu$,$\sigma^2$求偏导数,并令偏导数为0,解得:

可以看出,对例子1,用最大似然估计和用矩估计法求得的估计值完全相同。 对例子2,每一次抛硬币的事件 $X_i$,都得到硬币朝上或者朝下的结果 $x_i \in {0, 1} $, 其中1表示正面朝上,0表示正面朝下。

其中 $n^{(1)}$ 表示正面朝上的次数,$n^{(0)}$ 表示正面朝下的次数。上式对 $\theta$求导并令其等于0得到:

1.3 最大后验估计(Maximum a Posteriori Estimation)

最大后验估计(MAP)也是点估计的一种方法,跟最大似然估计很相似,此时不是要求似然函数最大,而是要求要求后验概率最大。

可以看出最大后验估计不同于最大似然估计的是在估计参数 $\theta$ 时引入了一个先验概率。这个先验概率在实际应用中往往指人们已经接受的普遍规律。比如抛硬币的实验,如果抛了3次硬币,每次都是正面朝下,按照最大似然估计就会得出硬币正面朝上的概率为0这一结论,这显然与人们的常识相违背。人们已经认知的规律是一个公平的硬币,正面朝上的概率一般是0.5,也就是说硬币正面朝上的概率分布会在0.5处取得最大值,这个概率分布就是先验分布。假设先验分布的参数是 $\alpha, \beta$,即先验分布表示为:$p(\theta) = p(\theta | \alpha, \beta)$。

一般先验会选择似然函数的共轭先验,这样计算出来的后验概率和先验概率就是共轭分布,有关共轭分布的只是请参考 PRML 第二章[3]。这里我们选取 beta 分布作为 $\theta$ 的先验分布,令超参数 $\alpha = \beta = 5$:

将这个式子带入(15)式,对 $\theta$ 求导,令导数为0:

求解得到:

比最大似然估计得出来得0.6更接近0.5,也就是更接近硬币两面公平这一事实。

2 贝叶斯估计

贝叶斯估计和最大似然估计、最大后验估计不一样,属于贝叶斯学派的观点,这个学派认为待估计的参数也是一个随机变量,当给定一个输入 $X$ 后,我们不能用一个确定的 $y$ 来表示输出,必须用一个概率的方式表达出来,所以贝叶斯预测的是一个期望值。贝叶斯估计跟最大后验估计不一样的地方是不直接估计参数的值,而是求出参数的概率分布,然后求这个概率分布的期望。

然后根据上式求出 $\theta$ 的期望即可:

可以看出贝叶斯估计得出来的值比最大后验估计又更接近了0.5,如下图所示[2]:

3 估计量的评选标准

评价一个估计量的好坏,有很多常用的标准,这里只介绍最常用的两个标准,无偏性和有效性。

3.1 无偏性

如果估计量$\hat {\theta}=\hat {\theta}(X_1, X_2, \ldots, X_n)$的期望存在,而且有:

则称$\hat {\theta}$为$\theta$的无偏估计量。

检验上面例子1用最大似然估计得到的估计值:

所以估计量$\hat {\theta}$是有偏的。

3.2 有效性

设估计量$\hat {\theta_1}=\hat {\theta_1}(X_1, X_2, \ldots, X_n)$和估计量$\hat {\theta_2}=\hat {\theta_2}(X_1, X_2, \ldots, X_n)$都是$\theta$的无偏估计量,如果:

则称 $\hat {\theta_1} $比$\hat {\theta_2} $有效。

4 参考资料

  1. 概率论与数理统计 高等教育出版社
  2. http://www.arbylon.net/publications/text-est.pdf
  3. Pattern Recognition and Machine Learning Chapter2