微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

sklearn.linear_model.SGDClassifier.coef_ 字段对特征重要性的意义是什么?

如何解决sklearn.linear_model.SGDClassifier.coef_ 字段对特征重要性的意义是什么?

我想弄清楚如何解释二进制文本情感 SGD 分类器的权重。分类器在负情绪为 0 和正情绪为 1 上进行训练。

在 API (https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html) 中

它说 coef_ 是

"Weights assigned to the features."

训练分类器后,我打印了一些权重:

 print('The first 5 weights: {}'.format(weights_list[0][:5]))

 output->The first 5 weights: [ 0.          0.41863284  0.39982623 -0.23794818 -0.28968943]

这些权重中的每一个都引用一个布尔值,表示样本输入中是否存在单个单词。

例如,如果 0.41863284 指的是“well”这个词的存在。

将它解释为“well”这个词是否有意义,因为它使分类器认为样本是正的。大负权重的相同推理是否意味着该特征与负面情绪相关?

从中你能看出哪些特征具有较大的负权重以查看最负面的词,以及哪些特征具有较大的正权重以查看最正面的词。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。