微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

LightGBM的功能重要性

如何解决LightGBM的功能重要性

我已经使用几种算法训练了模型,包括来自skicit-learn的Random Forest和LightGBM。并且这些模型在准确性和其他统计方面的表现相似。

问题在于就功能重要性而言,这两种算法之间的行为不一致。我使用认参数,并且我知道它们使用不同的方法来计算特征的重要性,但是我认为高度相关的特征应该始终对模型的预测产生最大的影响。随机森林对我来说更有意义,因为高度相关的功能出现在顶部,而LightGBM则不是。

是否有一种方法可以解释这种行为,LightGBM的结果是否值得信赖?

随机森林功能重要性

enter image description here

LightGBM功能重要性

enter image description here

与目标的关联

enter image description here

解决方法

嗯,GBM通常显示出更好的性能,尤其是在与随机森林进行比较时。特别是与LightGBM进行比较时。与随机森林相比,适当调整的LightGBM最有可能在性能和速度方面获胜。

GBM的优势:

More developed. A lot of new features are developed for modern GBM model (xgboost,lightgbm,catboost) which affect its performance,speed,and scalability.

GBM的缺点:

Number of parameters to tune
Tendency to overfit easily

如果您不确定完全针对LightGBM正确调整超参数,请坚持使用随机森林;这样会更易于使用和维护。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。