概率的作用就是在一个样本空间里,如果我们知道相关的一些参数,就可以推导出某个事件发生的概率,比如抛硬币,如果知道硬币正面朝上的概率是二分之一,那么就可以推断抛两次都是正面这个事件出现的概率为四分之一。既然可以已知参数推导事件发生的概率,那么是不是也可以通过观察统计事件发生的概率,反推出涉及到的参数是某个值的概率?于是,就有了似然函数这个概念的出现。
假设样本xi服从分布函数f,似然函数可定义为:
$$ L(\theta ; X) = f_X (x;\theta)|_{x=X}$$
通过似然函数的表达式就可以知道,似然函数实际上就是关于未知参数theta和样本X的函数,加入样本X之间是相互独立同分布的,有:
$$ L(\theta ; X) = \prod_{i=1}^n f (x_i;\theta)|_{x_i=X_i}$$
理解了似然函数的定义之后,就是怎么应用似然函数推导参数是多少的概率了,依然还是抛硬币的例子,假如现在我们抛了十次硬币,其中八次朝上,两次朝下,那么朝上的概率a是多少?这个实验结果服从二项分布,可以写出这个事件似然函数:
$$ L(\theta ; X) = p(head)^8 * (1-p(head))^2$$
现在这个事件发生了,就可以认为在这个参数下,这个事件发生的概率是最大的,相反,也可以认为,这个事件在这个参数下发生的概率最大,所以要求出概率,问题就变成概率取什么值,可以让似然函数最大化。通过让似然函数达到极大而求参数(这里的概率)的取值的方法就是极大似然估计。
一般来说我们会求对数似然函数而不是似然函数,因为加了一个log函数仍然具备同样的单调性,也就是对数似然函数和似然函数都在同一个点达到极大极小值,而且往往对数似然函数对于计算机而言更容易求解。
接下来是极大似然估计的性质,主要是渐近正态性(Asymptotic Normality),简单来说,就是theta的mle会收敛于未知参数theta0。对某些mle的方差,有
$$\sqrt n (\hat \theta - \theta _0) \to N(0,\sigma^2_{MLE})$$
这里给出fisher信息的定义,分布为P的随机变量X的fisher信息为:
$$ I(\theta _0) = E_{\theta_0} (l'(X | \theta_0 ))^2 $$
最后可得到MLE的渐近正态性:
$$\sqrt n (\hat \theta - \theta _0) \to N(0,\frac{1}{I(\theta_0)})$$
概念有很多,先来梳理一下,首先是公式中左边有一个根号n,这个和中心极限定理有关。然后是怎么计算,虽然引入了fisher信息,实际上在这里只是起到简化表达式的作用,要求出fisher信息,我们只需要对对数似然函数求两次导,取负数,就可以了,求出了fisher信息,就可以得到正态分布的具体形式,一般来说,我们会利用这个正态分布,取分析theta的置信区间。