在 Python 中确定 K-means 聚类数

我有一个保存在 *.csv 文件中的轨迹数据集，我按月份对其进行了排序。我的意思是，我根据月份将其拆分为不同的文件。每个文件中的记录数是不同的。例如，1 月份我有 1 万条记录，但 4 月份我有 50 万条记录。

我将在 python 中对每个文件执行 k-mean 聚类。您能否告诉我如何找到或确定初始 K 的最佳簇数？

谢谢

您可以使用 elbow 方法。

在聚类分析中，肘部方法是一种启发式方法，用于确定数据集中的簇数。该方法包括绘制解释的变化作为数量的函数簇，并选择曲线的肘部作为簇数使用。可以用同样的方法来选择参数的数量在其他数据驱动模型中，例如本金的数量用于描述数据集的组件。

不要让上面的描述吓到您，这实际上是一件很容易的事情。这是一个快速的tutorial。