特征子集选择属于特征工程的一部分,主要是因为在多个特征中,可能存在数个与响应变量无关的情况,而引入过多的特征,一方面大大增加了计算量,其次也会影响模型的评估,所以我们才需要选择与响应变量相关的变量形成特征子集。
第一种方法是最优子集选择(best subset selection),假如目前由p个特征,那么我们每次选择k个特征,从数量为k的所有可能的特征组合中得到最好的那个,这里的最好指RSS(残差平方和)最小,或者R平方最大,这样我们就得到针对不同数量的最好的特征子集了。最后,我们通过交叉验证、AIC、BIC或者R平方从这p+1(包含特征数为0的模型)个模型中选择最优模型
最优子集选择方法很容易理解,可是主要问题是计算效率低,p个特征可以构建2^p个用于建模的子集,所以当p较大时,计算量就十分大了。
除了最优子集选择,还有逐步选择(stepwise selection),逐步选择包括向前、向后和混合逐步选择。
向前逐步选择以一个不包含任何特征的null model开始,然后开始添加第一个特征,这个特征应该是能使得模型的RSS最小或R平方最大的特征,然后进一步在这个特征的基础上寻找下一个添加的特征,一直重复p次,我们就可以得到p+1个模型,然后再像最优子集选择那样选择最优的那个模型。
和最优子集选择相比,向前选择只需要考虑1+p(p+1)/2次,当p较大时考虑的数量比最优子集选择少很多,可是相对的,得到的子集未必是所有组合里面最优的。
向后逐步选择其实也是差不多的过程,只是倒了过来,以一个包含全部特征的模型开始,然后慢慢减少特征,保留能使得模型的RSS最小或R平方最大的特征,重复p次得到p+1个模型,再选择最优。
混合方法可以看成向前逐步选择的改进版,在每次添加特征的过程中,如果发现有某个特征添加了也不能提升模型的拟合效果,就剔除这个特征,在后续的过程中不再考虑它,这就使得运算效率进一步提升,不过和向前逐步选择相比就更加难找到最优的那个特征子集了。
在上述的方法中,注意到,在同样本数量的特征中选择最优的模型我们可以利用RSS和R平方,但是这两个指标往往不适合对不同特征数的模型进行选择,因此往往我们会选择其他指标。
第一个指标是Cp统计量,利用最小二乘法拟合一个包括d个特征的模型,Cp统计量在训练集RSS的基础上增加了惩罚项,它随着模型特征数量的增大而增大。
第二个指标是赤池信息量准则(AIC),适用于许多使用极大似然估计进行拟合的模型,若线性回归模型的误差服从高斯分布,极大似然估计和最小二乘估计是等价的。
第三个指标是贝叶斯信息准则(BIC),测试误差较低的模型BIC也较低,与Cp相比,BIC统计量通常给包含多个特真的模型较大的惩罚。
第四个指标是调整R^2:
$$adjusted R^2 = 1 - \frac{RSS/(n-d-1)}{TSS/(n-1)}$$
调整R平方越大,模型测试误差越小。
最后我们还能使用交叉验证选择最优模型。