我有一个大的(100K×30K)和svmlight格式的(非常)稀疏数据集,我按如下方式加载:
import numpy as np
from scipy.cluster.vq import kmeans2
from scipy.spatial.distance import pdist,squareform
from sklearn.datasets import load_svmlight_file
X,Y = load_svmlight_file("somefile_svm.txt")
它返回一个稀疏的scipy数组X.
我只需要计算所有训练点的成对距离
D = pdist(X)
不幸的是,scipy.spatial.distance中的距离计算实现仅适用于密集矩阵.由于数据集的大小,使用pdist作为不可行
D = pdist(X.todense())
任何有关此问题的稀疏矩阵距离计算实现或变通方法的指针都将非常受欢迎.
非常感谢
最佳答案
在scikit-learn中,有一个sklearn.metrics.euclidean_distances函数,适用于稀疏矩阵和密集numpy数组.见reference documentation.
然而,稀疏矩阵尚未实现非欧几里德距离.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。