如何解决决策树的熵计算错误
我有点想了解决策树计算的细节。 我获取了虹膜数据集,并使用以下公式计算了整个数据集的熵
Entropy = - \Sigma _{k=1}^m p(k) * log(p(k)
>>> ( (32/112) * log(32/112)) + ( (38/112) *log(38/112)) +( (42/112) * log(42/112))
-1.09
注意:32、38和42是虹膜数据集中三个类别的个体频率,它们的总数为112。
令我惊讶的是,最终得到的熵大于1。我什至没有使用 log2 ,它在熵的公式中存在(熵详细信息的屏幕截图如下)。 / p>
有人可以建议我在这里犯什么错误吗?
预先感谢
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。