微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在 RStudio 中确定最佳集群数

如何解决在 RStudio 中确定最佳集群数

我目前正在开展我的项目,该项目使用 K 均值聚类来确定各种气候模式。我使用肘部法、平均轮廓法和间隙统计法来确定最佳聚类数。我已经有一个包含 10,000 多行和 12 列(1 月至 12 月)的 CSV 文件。使用 Elbow 方法,它产生了 3 个簇,而使用剪影方法它产生了 4 个簇。但是当我使用差距统计方法时,它产生了 10 个集群,因为这是设置的最大集群,我认为如果我增加最大集群,它会继续增加更多。有没有办法以某种方式使差距统计的结果合理,或者至少使其接近我使用的其他两种方法?我应该编辑代码中的 nstartnboot 吗?

这是我使用的代码

set.seed(123)
fviz_nbclust(Data,means,nstart = 25,method = "gap_stat",nboot = 500
) + 
  labs(subtitle = "Gap statistic method")

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。