微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

hdbscan 与 bertopic 一起使用的问题:OSError: [Errno 22] Invalid argument

如何解决hdbscan 与 bertopic 一起使用的问题:OSError: [Errno 22] Invalid argument

我写作是因为我有一个问题(我知道是愚蠢而明显的介绍)。

我正在尝试使用 RStudio 中的 Python 解释器和 reticulate 扩展来使用 BERTopic 包:

Python 3.6.13 (C:/Users/Francesco/AppData/Local/r-miniconda/envs/r-reticulate/python.exe)
Reticulate 1.18.9008 REPL -- R 中的 Python 解释器。

我设法安装了它 pip3 install bertopic

一开始,尝试安装 bertopic 会导致错误hdbscan 的依赖有关,特别是与使用的轮子有关;我通过 conda 安装 hdbscan 克服了它(使用 pip 问题似乎无法解决),并且在这样做之后似乎两者都已安装并且很好(pip 会确认如此)。

之后,我尝试按照 Medium/Towards Data Science 中的包教程(这里是我正在关注的 Colab 版本)来熟悉该包并检查一切是否按预期运行。

我基本上是将 Colab 的代码复制并粘贴到我正在使用的 RMarkdown 文件中的 Python 块上,但是当我尝试将教程的相同代码应用于使用的相同数据集时:

from sklearn.datasets import fetch_20newsgroups

docs = fetch_20newsgroups(subset='all',remove=('headers','footers','quotes'))['data']

from bertopic import BERTopic

topic_model = BERTopic(language="english",calculate_probabilities=True,verbose=True)

topics,probs = topic_model.fit_transform(docs)

我收到以下错误

批次:100%|##########| 589/589 [28:21 2021-04-29 16:24:25,973 - BERTopic - 将文档转换为嵌入
2021-04-29 16:24:35,752 - BERTopic - 使用 UMAP 降低维度
OSError: [Errno 22] 无效参数

理论上,按照 colab 上的输出,我应该得到:

.................. - BERTopic - 使用 HDBSCAN 的集群 UMAP 嵌入

因为我对 hdbscan 有问题,我相信它与它有某种关系,我阅读了几个 GitHub 和 Stackoverflow 页面,指出了这样一个包的问题,​​但我不知道如何解决这个问题,但是我真的需要,因为我的论文需要使用包。

有人可以帮我吗?

PS:这是我第一次在 stackoverflow 上提问:我希望我写下了所有必要的东西,但如果缺少某些信息,请告诉我。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。