数学基础之概率

本文主要介绍概率与数理统计中的一些常见的基本概念.文章最后简单介绍一下参数估计,有关参数估计的详细介绍可以参考参数估计.


1 样本空间

对于随机试验, 尽管在每次试验之前不能预知试验的结果, 但是试验的所有可能结果集合是已知的, 我们将随机试验的所有可能的结果组成的集合称为的样本空间, 记为. 样本空间的的元素, 即的每个可能结果, 称为样本点. 比如事件:抛一枚硬币, 观察正面, 反面出现的情况, .

2 频率(Frequency) 概率(Probability)

频率描述了事件发生的频繁程度, 一般采用多次试验的结果得到. 概率描述的是一次试验中, 事件发生的可能性大小. 如果试验的次数足够多, 频率将在一定意义下接近于概率.

3 条件概率(Conditional Probability)

是两个事件, 且, 称:

为事件发生的条件下事件发生的概率.

4 乘法定理(Product Rule)

, 则:

这个定理也很容易推广到多个事件的情况.

5 加法定理(Sum Rule)

设试验的样本空间为, 的事件, 为S的一个划分, 且 , 则:

6 贝叶斯公式(Bayes’ Theorem)

7 先验概率(Prior Probability) 后验概率(Posterior Probability)

例子:某种设备, 调整良好时, 产品合格率为90%, 发生故障时, 合格率为30%, 每天早上开工时, 设备调整良好的概率为75%, 已知早上第一件产品是合格品, 问设备调整良好的概率是多少?如果定义事件为产品合格, 事件为设备调整良好, 显然有:

要求的是 ,称为先验概率, 是根据以往的经验数据得到的, 是得到了第一件产品为合格品之后对做的修正, 称为后验概率, 后验概率让我们对设备的情况有了更进一步的了解.

8 独立事件

如果A, B两个事件满足:

称A, B为互相独立的事件. 这个式子也很容易推广到多个事件的情况.

9 随机变量

如果将随机试验的结果数量化, 比如抛硬币, 用 1 代表正面, 用 0 代表反面. 如果将这个数量化的结果用一个变量表示, X就是随机变量, 根据实验结果的不同而不同. 正规的定义是: 设是随机试验, 样本空间是, 如果对于每一个属于, 都有一个实数与之对应, 这样就得到一个定义在上的单值函数, 称为随机变量. 如果能取到的值是有限个或者可列无限个, 则称为离散性随机变量.

10 概率分布

如果离散性随机变量的所有取值为 , 取各个值得概率为:

称为离散性随机变量X的概率分布或者分布律.

11 分布函数(Cumulative Distribution Fucntion)

对于非离散性随机变量X, 其可能的取值不能一一列举出来, 所以不能用像离散性随机变量那样用分布律来吗描述, 为此引入随机变量分布函数的概率. 设是一随机变量, 是任意实数, 函数:

称为的分布函数. 虽然对离散性随机变量, 可以完全用分布律来描述, 但为了数学上的统一, 定义了对离散性随机变量和非离散性随机变量都适用的分布函数.

12 连续性随机变量 概率密度(Probability Density Function)

如果随机变量X的分布函数是, 存在非负函数, 使得对于任意实数有:

则称为连续性随机变量, 称为的概率密度函数, 简称概率密度.

概率密度具有以下性质:

13 期望(Expectation)

设离散性随机变量的分布律为:

如果级数:

绝对收敛, 则称为随机变量的期望, 记作.

对于连续性随机变量X的概率密度为, 期望为:

如果有函数, 则Y的期望为:

期望又称均值.

14 方差(Variance)

是一个随机变量, 如果存在, 则称为X的方差, 记为或者. 方差可以按照公式 计算. 方差开方记为 , 称为标准差或者均方差.

15 矩

是随机变量, 阶原点矩:

阶中心矩:

显然的期望是的一阶原点矩, 方差是的二阶中心矩

16 常见概率分布

16.1 0-1分布 伯努利分布(Bernoulli Distribution)

离散性随机变量的概率分布, 随机变量只能取0和1两个值, 它的分布律是:

,

16.2 二项分布(Binomial Distribution)

随机变量X表示n重伯努利试验中事件发生的次数, 例如重复抛次硬币, 出现正面的次数, 的分布律是:

,

16.3 泊松分布(Poisson Distribution)

设随机变量所有的可能取值为0, 1, 2, . . . , 而取各个值得概率为:

则称服从参数为 的泊松分布.

,

在实际事例中, 当一个随机事件, 以固定的平均瞬时速率λ(或称密度)随机且独立地出现时, 那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布. 因此, 泊松分布在管理科学、运筹学以及自然科学的某些问题中都占有重要的地位. 例如:

  • 某一服务设施在一定时间内到达的人数
  • 电话交换机接到呼叫的次数
  • 汽车站台的候客人数
  • 机器出现的故障数
  • 自然灾害发生的次数
  • 一本书一页中的印刷错误
  • 显微镜下单位分区内的细菌分布数
  • 某放射性物质单位时间发射出的粒子数
  • 某地区一天内丢失的邮件数
  • 某医院一天内的急诊人数
16.4 均匀分布(Uniform Distribution)

设连续性随机变量具有概率密度:

则称在区间上服从均匀分布.

,

16.5 正态分布(Normal Distribution, Gaussian Distribution)

设连续性随机变量的概率密度为:

则称服从参数为, 的正态分布, 正态分布又叫高斯分布.

,

17 大数定理

随机试验中, 随着试验次数的增加, 人们发现事件发生的频率逐渐稳定于某个常数(想想抛硬币的例子), 在实践中, 人们还认识到大量测量值的算数平均值也具有稳定性, 这种稳定性就是大数定理的客观背景. 这里我们介绍其中的一个大数定理:

[辛钦定理]设随机变量相互独立, 服从同一分布(independent and identically distributed, i. i. d. ), 且具有相同的数学期望, , 则:

18 中心极限定理

在客观实际中有许多随机变量, 他们是由大量相互独立的随机因素的综合影响形成的, 而其中每一个个别因素在总的影响中所起的作用都是微小的, 这种随机变量往往近似地服从正态分布, 这种现象就是中心极限定理的客观背景. 这里只介绍独立同分布的中心极限定理.

[独立同分布的中心极限定理] 设随机变量相互独立, 服从同一分布, 且具有相同的数学期望, 和相同的方差 , 则随机变量:

很大时趋近于标准正态分布.

当这些随机变量不是服从同一分布的时候, 他们的和在很大时仍然服从正态分布, 这就是正态分布为什么概率中特别重要的原因. 在很多问题中, 所考虑的随机变量可以表示成很多独立的随机变量之和, 例如, 在任一指定时刻, 一个城市的耗电量是大量用户的耗电量的总和, 一个物理实验的测量误差是许多观察不到的, 可加的微小误差所合成的, 他们往往近似的服从正态分布.

19 参数估计

19.1 点估计

设总体X的分布函数形式已知, 但有一个或者多个未知参数, 借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题. 常用的点估计方法有矩估计法和最大似然估计法.

例子:设总体 的均值 和方差 均未知, 已知 是一个样本, 估计均值 和方差

19.1.1 矩估计

分别计算样本矩和总体矩的前k阶矩, 利用样本矩依概率收敛于总体矩的性质, 构造相应的方程组, 用方程组的解作为参数的估计量, 这时候的估计量称为矩估计量.

用矩估计法解上面的例子,易知总体矩:

计算样本矩:

联立方程组

解得:

19.1.2 最大似然估计(Maximum likelihood)

设总体属于离散性, 其分布律为 , 形式已知, 但参数未知. 已知 是一个样本, 则的联合分布律为:

是相应于样本的一个样本值, 已知样本取到的概率为, 也即事件 发生的概率为:

这一概率随 的变化而变化, 是的函数, 称为样本的似然函数.

用使似然函数取得最大值的作为原分布律未知参数的估计值, 称为极大似然估计值.

当总体属于连续型时, 考虑的是样本 落到 的领域内的概率, 和离散性的表达形式一样.

用最大似然估计解上面的例子

的概率密度为:

似然函数为:

取对数, 然后分别对 , 求偏导数, 并令偏导数为0, 解得:

和用矩估计法求得的估计值完全相同.

19.2 估计量的评选标准

评价一个估计量的好坏, 有很多常用的标准, 这里只介绍最常用的两个标准, 无偏性和有效性.

19.2.1 无偏性

如果估计量的期望存在, 而且有:

则称的无偏估计量.

检验上面例子中的估计值:

所以估计量是有偏的.

19.2.2 有效性

设估计量和估计量都是的无偏估计量, 如果:

则称 有效.

20 练习题

最后附上CMU的一套简单测试题, 可以用来你是否具备学习机器学习入门的数学基础.

21 参考资料

  1. 概率论与数理统计 高等教育出版社
  2. Pattern Recognition and Machine Learning Chapter1,Chapter2,Appendix B