微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

您在k-means和EM中选择最佳聚类数的方法是什么?

许多用于聚类的算法是可用的.流行的算法是K-means,其中基于给定数量的聚类,算法迭代以找到对象的最佳聚类.

您使用什么方法来确定k-means聚类中数据中的聚类数?

R中可用的任何包都包含用于确定正确数量的聚类的V-fold交叉验证方法.

一个很好使用的方法是期望最大化(EM)算法,其向每个实例分配概率分布,其指示其属于每个集群的概率.

这个算法是否在R中实现?

如果是,可以选择通过交叉验证自动选择最佳聚类数量吗?

你喜欢其他一些聚类方法吗?

解决方法

对于大的“稀疏”数据集,我会认真推荐“亲和传播”方法.
它具有比k手段更好的性能,它是确定性的.

http://www.psi.toronto.edu/affinitypropagation/
它发表在“科学”杂志上.

然而,最优聚类算法的选择取决于考虑的数据集. K Means是一种教科书方法,很有可能某些人开发出更适合您的数据集/

这是Andrew Moore教授(CMU,Google)对K均值和层次聚类的一个很好的教程.
http://www.autonlab.org/tutorials/kmeans.html

原文地址:https://www.jb51.cc/css/216638.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。