技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

xgBoost 的相对特征重要性是否因测试集中的数据点而异？

时间：2022-05-25分类：编程问答

如何解决xgBoost 的相对特征重要性是否因测试集中的数据点而异？

我正在研究二进制分类数据集并将 xgBoost 模型应用于该问题。模型准备好后，我会绘制特征重要性和由底层随机森林产生的树之一。请在下面找到这些图。

问题

如果我使用一个包含 10 个数据点的测试集，特征的重要性是否会因数据点的不同而不同，以计算该数据点的 predict_proba 分数？
以不同数据点的 CNN 类激活图进行类比，当模型在多个数据点上运行时，每个特征的排序和相对重要性是保持不变还是变化？

解决方法

“数据点”是什么意思？数据点是单个病例/受试者/患者/等吗？如果是这样；

特征重要性图和你绘制的树都只与模型相关，它们独立于测试集。找出哪些特征在对测试集中的特定主题/案例/数据点进行分类时很重要是一项更具挑战性的任务（参见例如 XGBoostExplainer / https://medium.com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211）。
每个主题/案例/数据点的每个特征的排序和相对重要性都不同（见上文），并且 xgboost 中没有“类激活图”——所有数据都被分析并被视为“不重要'不影响最终决定。

编辑

XGBoostExplainer 的进一步示例：

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

小编推荐

苹果市值2025年有望达4万亿美元