如何解决多项式特征的引入不会导致共线性增加吗?
我正在通过 ISLR 进行线性和逻辑回归,在这两种情况下,我发现为提高模型的灵活性而采用的方法之一是使用多项式特征 - X 和 X^2 作为特征,然后应用将 X 和 X^2 作为独立特征(在 sklearn 中,而不是 statsmodel 的多项式拟合)时,像往常一样回归模型。但这不会增加特征之间的共线性吗?它如何影响模型性能?
总结一下我对此的看法 -
首先,X和X^2毫无疑问有很大的相关性。
第二,我写了一个 blog 证明,至少在线性回归中,特征之间的共线性不会影响模型拟合分数,尽管它通过增加系数不确定性使模型的可解释性降低.
考虑到模型性能是通过拟合得分来衡量的,那么第二点是否与此有关。
解决方法
多重共线性并不总是一个障碍。这取决于数据到数据。如果您的模型没有给您最好的结果(高精度或低损失),那么您可以删除异常值或高度相关的特征以改进它,但一切都是笨拙的,您不必理会它们。
多项式回归也是如此。 是的,它通过在模型中引入 x^2、x^3 特征来增加模型的多重共线性。
为了克服这个问题,您可以使用 orthogonal polynomial regression
,它引入了彼此正交的多项式。
但它仍然会引入更高次的多项式,这些多项式在您的数据空间边界处可能变得不稳定。
要解决这个问题,您可以使用 Regression Splines
,其中它将数据分布划分为单独的部分,并在每个部分上拟合线性或低次多项式函数。发生除法的点称为Knots
。我们可以用来对每个部件/箱进行建模的函数称为 Piecewise functions
。 这个函数有一个约束,假设,如果它引入了 3 次多项式或三次特征,那么这个函数应该是二阶可微的。
这种阶为 m 且具有 m-1 个连续导数的分段多项式称为 Spline
。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。