微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用朴素贝叶斯分类器算法计算概率时如何防止下溢?

如何解决使用朴素贝叶斯分类器算法计算概率时如何防止下溢?

我正在为我的数据挖掘课程研究朴素贝叶斯分类器算法,但是在计算概率时遇到了下溢问题。特定的数据集有~305 个属性,所以你可以想象,最终的概率会非常低。我怎样才能避免这个问题?

解决方法

一种方法是处理概率的对数而不是概率本身。这个想法是你永远不要用概率计算,因为担心你会得到 0.0,而是用对数概率计算。

大多数更改都很容易:例如,不是将概率相乘,而是添加对数,并且对于许多分布(例如高斯分布),计算对数概率而不是概率很容易。

唯一稍微棘手的一点是如果您需要将概率相加。但这是一个众所周知的问题,搜索logsumexp 会得到很多命中,例如here。我相信有一个 logsumexp 函数 int scipy。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。