微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用t-SNE可视化LSA并优化组件编号

如何解决使用t-SNE可视化LSA并优化组件编号

我正在尝试使用NLP分析LSA的新闻标题。我发现,最可解释的结果是通过使用以下矢量化程序实现8个组件:

vectorizer = TfidfVectorizer(stop_words=my_stop_words,ngram_range=(2,2),min_df=2)

n_components = 8
lsa = TruncatedSVD(n_components=n_components,n_iter=5,random_state=42)

doc_topic = lsa.fit_transform(df_vect)

我对可用于LSA的可视化工具感到困惑,并正在寻求指导。关于如何通过聚类或其他方式可视化这些结果,似乎缺少博客/文档。这是使用LSA(与LDA和群集相对)的本质吗?除了从主题中读取单词并查看它们是否有意义之外,我还不确定如何“优化”主题建模。如果我完全走错了路,请告诉我。

我试图在文档项(V_transpose)矩阵上使用t-SNE将组件分解为2D以便进行可视化,但是每个群集的分布都没有模式。我已附上一张图片

t-SNE clustering plot

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。