微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

有解决此内存问题的方法吗?

如何解决有解决此内存问题的方法吗?

全部萨拉姆...

我已经在Windows操作系统中使用python分析了一个很大的推文数据集..当我尝试将数据转换为向量(tfidf)时,它给了我这个错误消息:

MemoryError无法分配298。Gib用于形状(439563,90889)和数据类型为float64的数组

我该如何解决这个问题?

以下是使用的代码

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform("MyData")
tf_idf = pd.DataFrame(data = X.toarray(),columns=vectorizer.get_feature_names())
final_df = tf_idf
print("{} rows".format(final_df.shape[0]))
final_df.T.nlargest(5,0)

解决方法

我认为最好的解决方案是将数据分成小文件,然后分别处理..我做到了,我得到了想要的结果..谢谢大家..

,

我建议您使用Google Colab
您可以免费访问功能强大的GPU和RAM

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。