如何解决使用t-SNE可视化LSA并优化组件编号
我正在尝试使用NLP分析LSA的新闻标题。我发现,最可解释的结果是通过使用以下矢量化程序实现8个组件:
vectorizer = TfidfVectorizer(stop_words=my_stop_words,ngram_range=(2,2),min_df=2)
n_components = 8
lsa = TruncatedSVD(n_components=n_components,n_iter=5,random_state=42)
doc_topic = lsa.fit_transform(df_vect)
我对可用于LSA的可视化工具感到困惑,并正在寻求指导。关于如何通过聚类或其他方式可视化这些结果,似乎缺少博客/文档。这是使用LSA(与LDA和群集相对)的本质吗?除了从主题中读取单词并查看它们是否有意义之外,我还不确定如何“优化”主题建模。如果我完全走错了路,请告诉我。
我试图在文档项(V_transpose)矩阵上使用t-SNE将组件分解为2D以便进行可视化,但是每个群集的分布都没有模式。我已附上一张图片。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。