微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

xgBoost 的相对特征重要性是否因测试集中的数据点而异?

如何解决xgBoost 的相对特征重要性是否因测试集中的数据点而异?

我正在研究二进制分类数据集并将 xgBoost 模型应用于该问题。模型准备好后,我会绘制特征重要性和由底层随机森林产生的树之一。请在下面找到这些图。

enter image description here

enter image description here

问题

  • 如果我使用一个包含 10 个数据点的测试集,特征的重要性是否会因数据点的不同而不同,以计算该数据点的 predict_proba 分数?
  • 以不同数据点的 CNN 类激活图进行类比,当模型在多个数据点上运行时,每个特征的排序和相对重要性是保持不变还是变化?

解决方法

“数据点”是什么意思?数据点是单个病例/受试者/患者/等吗?如果是这样;

  1. 特征重要性图和你绘制的树都只与模型相关,它们独立于测试集。找出哪些特征在对测试集中的特定主题/案例/数据点进行分类时很重要是一项更具挑战性的任务(参见例如 XGBoostExplainer / https://medium.com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211)。

  2. 每个主题/案例/数据点的每个特征的排序和相对重要性都不同(见上文),并且 xgboost 中没有“类激活图”——所有数据都被分析并被视为“不重要'不影响最终决定。

编辑

XGBoostExplainer 的进一步示例: example_1.png

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。