如何解决sklearn.linear_model.SGDClassifier.coef_ 字段对特征重要性的意义是什么?
我想弄清楚如何解释二进制文本情感 SGD 分类器的权重。分类器在负情绪为 0 和正情绪为 1 上进行训练。
在 API (https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html) 中
它说 coef_ 是
"Weights assigned to the features."
训练分类器后,我打印了一些权重:
print('The first 5 weights: {}'.format(weights_list[0][:5]))
output->The first 5 weights: [ 0. 0.41863284 0.39982623 -0.23794818 -0.28968943]
这些权重中的每一个都引用一个布尔值,表示样本输入中是否存在单个单词。
例如,如果 0.41863284 指的是“well”这个词的存在。
将它解释为“well”这个词是否有意义,因为它使分类器认为样本是正的。大负权重的相同推理是否意味着该特征与负面情绪相关?
从中你能看出哪些特征具有较大的负权重以查看最负面的词,以及哪些特征具有较大的正权重以查看最正面的词。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。