微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 scipy 进行分层聚类和树状图

如何解决使用 scipy 进行分层聚类和树状图

我有一个包含一些数据的 df,我想创建一个树状图以使用字符串进行层次聚类。 为简单起见,我正在考虑以下示例:

Item    Date
item1   1
item//2   2
item3   3
item::4   3
item5   4
item_6   4
item1   4
item12  5
item11  7

数据已按 Date 排序。我想创建一个层次聚类来可视化信息。

但是我收到此错误

ValueError: Could not convert string to float: 'item1'

来自

import scipy.cluster.hierarchy as hcluster 
from scipy.spatial.distance import pdist

dendrogram=df[['Item','Date']]

X = dendrogram.T.values #Transpose values 
Y = pdist(X)
Z = linkage(Y)
dendrogram(Z,labels = dendrogram.columns)

这个问题(和答案)没有帮助:SciPy Hierarchical String Clustering in Python?

也许我应该创建一个别名而不是使用 item1、item//2、...,因为它们也包含特殊字符。像这样:

Alias Item    Date
1     item1   1
2     item//2   2
3     item3   3
4     item::4   3
5     item5   4
6     item_6   4
1     item1   4
7     item12  5
8     item11  7

然后我可以使用 Alias 而不是 Item

如果您能提供一些帮助或给我建议,如果您更熟悉树状图和层次聚类及其安装,我们将不胜感激。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。