概率统计概述(三)

终于来到概率分布模型的最后一部分了,关于连续型的概率分布模型。

首先要介绍的是指数分布,其实这个指数分布和泊松分布也是有一定关系的。泊松分布主要分析制定时间间隔内时间发生次数的概率分布,而指数分布,分析的就是从一次事件发生完,到下一次事件再次发生之间的时间间隔的概率分布。比如来电的时间间隔、网站访问的时间间隔等等。其实,泊松分布的概率函数可以通过泊松分布推导出来。因为我们分析的是下次事件发生前的时间间隔分布概率,这就意味着这段时间t内没有事件发生,把事件发生数目为零代入泊松分布,就可以得到这段时间没有时间发生的概率分布,再用1减去这个式子,就得到指数分布的概率函数。

总的来说,泊松分布研究单位时间内独立事件发生次数的概率分布,指数分布研究独立事件的时间间隔的概率分布。

然后就是最经典的正态分布了。正态分布在日常生活中真的太常见了,但是我并不打算从这些例子出发介绍它,发而我认为介绍一下中心极限定理,之后会更好地理解为什么正太分布这么常见。

中心极限定理主要指,从一个总体中随机抽些样本,一共抽n次,抽了之后还要计算这次抽的结果的均值,而且每次抽的数量都不一样,最后,就会发现,这n个平均值,是符合正态分布的。最重要的是,不论这些样本服从什么分布,这个定理都成立,只要每次抽的数量不会太少就行了。

这个中心极限定理反映了什么,我觉得可以从这个角度来理解,首先上面所说的抽n次样本,这个抽样本毕竟抽再多也不会把整个样本空间的样本都抽出来,所以如果只是抽一点,再计算期望,那么肯定会和样本总体的期望有点误差。但是你抽多了几次,就代表了拿了更多样本空间的样本去计算期望,而误差还是那个样。于是最后,随着实验抽到的样本越来越多,计算得到的期望越来越多,偏向总体期望的平均值也会越来越多,而每次的误差的影响越来越少。因此,正态分布可以认为是关于误差与期望值的一个概率分布,反映了理想与现实的差距。

了解了中心极限定理和正态分布之间的关系之后,再看正态分布的例子,比如人的身高,某一个国家的男生可能平均身高是一米七,可以认为,在这个国家、这个环境下一般正常男生理想达到的身高是一米七,然后实际上因为各人的生活习惯、家庭因素等等因素,对身高的生长造成了影响,导致了最后可能比一米七高,可能更矮,但是这个大环境下一米七就是一个理想的数字,所以可能实际上存在误差,但总体男性的身高还是趋于一米七。我认为这个就是正态分布广泛存在的原因了:理想是存在的,现实各种因素的影响也是存在的,在各种因素影响下的现实情况的概率分布就是正态分布。

接下来主要分析怎么使用正态分布估计二项分布,还记得二项分布是概率为p的n次独立抽样取得k次成功的概率分布,整个分布是对称的,大致近似正态分布,但是正态分布是连续型的,二项分布是离散型的,所以这种近似是有条件的。还记得之前也提到过,当二项分布的n增大,同时np存在极限lambda,那么二项分布就可以近似成Possion分布,可是如果np没有极限,那么这时候根据De'Movire-Laplace中心极限定理,二项分布将趋近于正态分布。一般来说,如果np(1-p)>10,就可以用正态分布的概率进行近似计算了。具体的近似过程就是把二项分布的期望和方差作为正太分布的期望方差计算概率。但是因为一个是连续型一个是离散型,直接近似还有误差有点大,所以会采取修正,主要是对x<=a修正为x=b修正为x>b-0.5,对a<=x<=b修正为a-0.5

除此之外,还有一些比较冷门的分布(在soa考试和本科的数学学习中都很少见到的),一个是triangular distribution,如果两个独立随机变量都服从均匀分布,那么他们的和就服从三角分布,这个实际意义不大,暂不讨论。

然后是柯西分布,依然觉得意义不大,跳过(这里主要指在本人的相关研究应用和考试的意义,不是指这些分布的学术意义)
Erlangian Distribution,爱尔郎分布,和指数分布一样都是用于表示独立随机事件发生的时间间隔,相比指数分布,他可以更好地对显示数据进行拟合(更适用于多个串行过程,或无记忆性假设不显著的情况),除非退化为指数分布,否则爱尔郎分布不具有无记忆性,因此较难对其进行分析,一般是把爱尔郎过程分解为多个指数过程的技巧进行分析。

还有一个Gamma Function,这个相对上面几个冷门的分布稍微常见点。它是一种连续概率函数,gamma分布是指多个独立同分布的指数分布变量的和的分布。首先还是从指数分布和泊松分布开始讲起,他们俩是统计学中应用极大的两种分布。之前已经描述过如何从泊松分布出发理解指数分布,指数分布主要描述两个事件之间的时间间隔的分布,而gamma就是指从头开始到第n个事件发生的时间的分布,所以可以把它看成是多个独立同分布的指数分布变量的和的分布。

然后,还有一个神奇的分布,当你不知道一个东西的具体概率是多少时,beta分布可以给出所有概率出现的可能性,简单来说,我觉得它更像是一种根据现实情况,对理想分布模型的修正,比如说,我们知道棒球运球运动员的击球命中率,可以通过统计大量运动员的数据,分析得到一个成功率的分布,可是如果突然出现了一个人,让我们分析它击球命中率,还只能让他打一次就用这个数据测量,如果通过二项分布去测量,理论上是这样没错,实际上,他的实际命中率肯定不能通过那一次击球来决定,所以我们就可以考虑针对一般人的击球命中率,通过这个beta分布,加上这个人这次击球的结果,对原来得到的一般人的击球命中率的分布模型进行修正,进一步的,如果让这个人打多几次这个模型就更加准确(相反如果用这些数据代入二项分布肯定结果没beta分布好),这就是beta分布。



参考资料:
[1]http://www.ruanyifeng.com/blog/2015/06/poisson-distribution.html