如何解决我们如何解释随机梯度下降分类器的特征重要性?
我有一个用 scikit-learn 训练的 SGDClassifier 模型。我用 .get_feature_names()
提取特征名称,用 .coef_
我将 2 列组合在一个数据框中,如下所示:
feature value
hiroshima 3.918584
wildfire 3.287680
earthquake 3.256817
massacre 3.186762
storm 3.124809
... ...
job -1.696438
song -1.736640
as -1.956571
Nowplaying -2.028240
write -2.263968
我想知道如何解释特征的重要性? 正的高值是什么意思? 低负值意味着什么?
解决方法
SGDClassifier 拟合线性模型,意味着决策本质上是基于
SUM_i w_i f_i + b
其中 w_i
是附加到特征 f_i
的权重,因此您可以将这些数字解释为在与其绝对值成比例的比例下对正/负类的字面“投票”。您的分类器所做的就是添加这些权重,然后从您的模型中添加 _intercept
值,并根据符号进行分类。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。