概率统计概述(一)

概率统计,是数据分析、机器学习等很多内容的基础,在这里,我主要尝试简单介绍一下各个知识点的理解,并分析不同知识点之间的关系,为什么一些课本会以一定的顺序教授这些知识点,我认为这对构建知识体系是有效的。

在一开始会介绍一些基础概念,比如元素、集合、随机变量等,这些都是为了之后学习事件发生的概率做准备,事件发生的概率又可以进一步引出条件概率,关于求条件概率,又有一个有Bayes's Theorem,它的公式可理解为:当你不能准确知悉一个事物的本质时,可以依靠与事物特定本质相关的时间出现的多少去判断本质属性的概率。

经过前面的学习,主要掌握了怎么求随机事件发生的概率或者条件概率,知道了一个事件以及它的概率,接下来可以做的就是求它的期望和方差。简单来说期望就是实验中每次可能发生的结果乘以它的概率的总和,方差就是反映随机变量和期望值之间的距离,也是整体的一个离散程度。总的来说,这两个值也是一个反映一个随机变量分布的基本情况,所以在之后学习了各种不同的分布之后,都需要进一步学习它们的期望与方差求法。

谈及期望与方差,又可以引出两个概念:原点矩(raw moment)和中心矩(central moment),而期望就是一阶原点矩,方差就是二阶中心矩。进一步还会有偏态(skewness,衡量分布不对称性)、峰态(kurtosis,表示分布的波峰和为不与正态分布的区别),关于用矩来命名,也是有一定原因的,它的来源是物理学上的力矩。首先我们知道物理上的力矩是力乘以距离,在杠杆上,距离原点越远,力矩就越大,这时候我们即使用很少的力也可以轻易推动杠杆。而数学上,则把力与距离当成了随机变量与各自的概率,从而反映出在空间上的分布状况,更具体的内容,我认为这个网页(https://www.jianshu.com/p/c4aaa8ddb02f)会讲述的更好。

除了通过期望和方差,还可以通过percentiles和mode去展示概率分布的情况,比如median,他是 50th percentile,意思是x取什么值,才能让分布函数从负无穷到x的积分值为0.5,以此类推。而mode,则是指使得概率密度函数达到最大的那个x值。

所以,通过上面的学习,我们应该掌握了关于随机变量、概率分布函数、密度函数的基本概念,懂得怎么去求一元的分布函数等,同时,也可通过期望、方差等去探索这个分布的基本情况。

学习完一元分布之后,就轮到二元分布,也就是joint distribution,什么是联合分布,比如说,现在有两个随机变量x、y,我们要求x+y的分布,这种分布就是联合分布。最基本的一类问题,就是给出一个联合分布的概率密度函数,然后对x和y各积分一次就求出他们的分布函数。而因为引入了联合分布,有时候我们可能知道一个联合分布的概率密度函数,然后如果想求其中一个随机变量的分布,只要对另一个变量积分就可以了,这也是叫做marginal distribution,边缘分布。另一方面,类似于一元分布具有很多指标去衡量分布的基本情况,联合分布也有一个joint moment,在soa的study manual中具体指联合分布的期望,按照期望定义每个xy的取值乘以他们的概率再积分两次即可得到期望,这里的取值一般题目会说明白,比如可能是求x+y的期望、xy的期望等等。

联合分布的引入也引出了另一个问题,x+y的期望是他们的期望之和,可是如果x、y不独立,那么他们和的方差并不等于他们的方差的和,通过推导x+y的方差,发现了比起单纯的x、y的方差相加还多出了一个项,并把它命名为协方差,以此表明x与y之间的相关程度,假如相关系数为零,那么x、y就相互独立,方差之和等于和的方差,否则就有一定的相关性。通过协方差的正负,也可以表明他们是不是同方向变化,如果协方差为正,那么一个变量变大,另一个也会变大,反之亦然。而还有一个相关系数,从他的公式的形式就可以看出,他就是消除了两个变量亮纲影响、标准化后的特殊协方差,主要的意义就是针对集中不同的分布,可能各个分布的变化程度不同,如果算出他们的相关系数,会因为变化幅度的不同导致相关系数差异也很大,难以比较哪个分布的相关性较大,所以需要剔除这种变化幅度的影响,引入相关系数这个概念。

除了以上这堆概念,针对联合分布还能搞出什么花样吗,答案还真能,前面提到了条件概率,那时候还没有引入随机变量的概念,如果现在再去重新看这个概率,它就是表征了两个或多个随机变量分布的术语,因为最简单的随机变量,就是事件a发生的情况下,事件b发生的概率,这里就涉及了事件ab了。当时我们学习的条件概率,我认为就是条件分布制定了具体x、y的取值的具体情况,比如说,当y>0时,x=1的概率,而现在,我们则会讨论当y>0是,x的分布,这就是之前学习的条件概率和现在讨论的条件分布的区别。总的来说,我觉得之前的条件概率和现在提到的条件分布差别不会很大,贝叶斯定理依然可用。然后,因为条件分布也是一种分布,所以也是可以求期望的,这里就不再细说了。

谈及条件分布,再谈最后一个和条件分布有关的公式,Double Expectation Formulas,这个公式,我认为可以从这个角度理解。首先,我认为它和贝叶斯定理是相似的,假如我们现在要求g(x)的期望,可以怎么求,当然,我们可以直接求,但Double Expectation Formulas提出了另一个角度,引入另一个变量y(或许它和x有一定联系,或许没有),假如这个变量y有三个取值1、2、3吧,那么当y等于1的时候求g(x)的期望,当y等于2、3的时候再求一次,然后求这三个值的期望,最后其实就可以消除y的影响,得到g(x)的期望,如果把y扩充,就可以得到Double Expectation Formulas了。

最后还有一个Conditional variance formula,下次再详细说。

参考资料:
(1)https://www.jianshu.com/p/c4aaa8ddb02f
(2)https://www.zhihu.com/question/20852004
(3)https://www.zhihu.com/question/38726155