微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

机器学习 – 如何处理C4.5(J48)决策树中缺少的属性值?

使用Weka的C4.5(J48)决策树处理缺失特征属性值的最佳方法是什么?在训练和分类期间都会出现缺失值的问题.

>如果培训实例中缺少值,假设我放置’?’,我是否正确?功能的价值?
>假设我能够成功构建决策树,然后从Weka的树结构中用C或Java创建自己的树代码.在分类时,如果我尝试对新实例进行分类,我会为具有缺失值的功能赋予什么价值?如何将树下降到我具有未知值的决策节点?

使用Naive Bayes会更好地处理缺失值吗?我只想为他们分配一个非常小的非零概率,对吗?

解决方法

来自佩德罗多明戈斯在华盛顿大学的ML课程:

以下是佩德罗建议的A缺失值的三种方法

>在分配给节点n的其他示例中分配A的最常见值
>在具有相同目标值的其他示例中分配A的最常见值
>将概率p_i分配给A的每个可能值v_i;将示例的分数p_i分配给树中的每个后代.

幻灯片和视频现在可在here查看.

原文地址:https://www.jb51.cc/c/111319.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐