Abstract: Variable selection is an important content of statistical analysis and prediction, and it is
also one of the hot topics in current research. This article is based on the acceptance of Breiman's
(1995) using the nonnegative garrote (NNG) method for nonparametric additive models. This
method removes the need for a full search of all possible models, something which is
computationally intensive, especially when the number of variables is moderate to high. In
addition it provides accurate predictions and is effective at identifying the variables generating the
model.
Keywords: Variable selection Shrinkage methods NNG Cross-validation.
【中图分类号】C32 【文献标识码】B 文章编号1606-5123(2017)10-0000-00
1 引言
变量选择在统计分析中是非常重要的步骤。通常来说,变量选择就是找出对目标变量(响应变量)有显著影响的解释变量;从统计学的意义来说,变量选择就是一种可以降低模型复杂度的方法,有时会为了增加模型的预测精度而牺牲相应的偏差。首先,我们要认识到建立预测模型不仅仅是为了对收集的数据进行总结,而是通过机理分析来认识客观规律并利用这个规律对以后的实践进行指导和预测。
2 变量选择
我们知道,预测方程中每增加一个预测变量就会增加预测方程的方差,相反,参与构造预测方程的预测变量越少方差也就越小,而预测变量太少,偏差就会增大[2]。但是,如果一个由20个预测变量构造的预测方程在不会降低预测精度的情况下可以简化成由其中的5个来进行预测,那么预测方程不仅得到了大大的简化而且我们也知道了哪些变量对目标变量是重要的,变量选择的重要性不言而喻。
5 结束语
有关回归模型的变量选择,还有很多需要继续研究的问题。传统变量选择准则在小样本下的性质有待进一步研究,子集选择方法的计算量大是它的一个缺陷,另外,因为子集选择与参数估计是分两步进行的,估计参数的过程没有考虑模型选择的不确定性,从而低估了实际的方差,因此有必要研究变量选择产生的偏差对随后统计推断的影响。
现代统计面临着越来越复杂的高共线性、高维度、高非线性的数据,因此也产生了许多挑战性的问题,需要更多的方法来解决这些问题,与计算机技术相结合的有效算法是解决实际问题的有力工具。在关注算法的同时,也需要考虑算法的统计性质。目前,系数压缩法因能同时进行变量筛选和参数估计,仍将是今后一段时间内的研究热点且更加倾向于对算法的大样本统计性质的分析与设计。
参考文献
[1]Breiman,L.(1995).Better subset regression using the nonnegative garrote.Technometrics,37, 373-384.
[2]Miller A .Subset Selection in Regression [M].London: Chapman and Hall,2002.
[3]Seber G A F , Lee A J.Linear Regression Analysis (2nd ed.) [M].Wiley-Interscience, 2003.
[4]Fall J, Li R .Statistical Challenges with High Dimensionality: Feature Selection in Knowledge Discovery[A]. Sanz-Soel M , Soria J, Varona J L , et al , eds. proceedings of the International Congress of Mathematicians [C].Zurieh: European Mathematical Soeiety , 2006, III:595-622.
[5]Yuan M, Lin Y.On the non-negative garrote estimator[J].Journal of the Royal statistical society(Ser. B ),2007,69:143-161.
作者简介
余 旺 (1991-) 男 工学学士 研究生在读 研究方向:控制工程方向
共0条 [查看全部] 网友评论