使用t-SNE可视化LSA并优化组件编号

如何解决使用t-SNE可视化LSA并优化组件编号

我正在尝试使用NLP分析LSA的新闻标题。我发现，最可解释的结果是通过使用以下矢量化程序实现8个组件：

vectorizer = TfidfVectorizer(stop_words=my_stop_words,ngram_range=(2,2),min_df=2)

n_components = 8
lsa = TruncatedSVD(n_components=n_components,n_iter=5,random_state=42)

doc_topic = lsa.fit_transform(df_vect)

我对可用于LSA的可视化工具感到困惑，并正在寻求指导。关于如何通过聚类或其他方式可视化这些结果，似乎缺少博客/文档。这是使用LSA（与LDA和群集相对）的本质吗？除了从主题中读取单词并查看它们是否有意义之外，我还不确定如何“优化”主题建模。如果我完全走错了路，请告诉我。

我试图在文档项（V_transpose）矩阵上使用t-SNE将组件分解为2D以便进行可视化，但是每个群集的分布都没有模式。我已附上一张图片。

t-SNE clustering plot