微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

最佳线性回归模型的相关性与作为输入的特定相关性的变量数量

如何解决最佳线性回归模型的相关性与作为输入的特定相关性的变量数量

我正在评估一个基于与目标相关性低 (0.05-0.2) 的少量特征 (3-4) 的线性模型。预测结果很糟糕,我试图用简单的术语解释为什么这是可以预期的。

我意识到我自己对此的感觉很大程度上是基于直觉,所以我想知道,基于特征可以预期什么样的模型质量背后是否存在理论?

类似于:

给定 n 个特征 xi 和 cor(xi,y) = r,你能期待 cor(yp,y ) 为,其中 yp = y = f(x)

的最佳线性模型

或者更一般:

给定 n 个独立特征 xi 和 cor(xi,y) = ri>

或者更笼统:

给定 n 个非独立特征 xi with cor(xi,y) = riand cor(x i,xj) = qij

我的第一个想法是这些问题中的前两个应该是可行的,方法如下:

y=xi + ei 其中 ei 是高斯噪声,均值为 0,标准差为 si子>.

从那里开始,但我被困在 si 和 cor(y,xi) 之间的关系是什么,我不确定甚至有帮助,因为在“最佳”线性模型中如何组合这些仍然存在问题。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。