微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

nlp – 潜在Dirichlet分配与文档聚类之间的关系

我想澄清潜在的Dirichlet分配(LDA)与文档聚类的通用任务之间的关系.

LDA分析倾向于输出每个文档的主题比例.如果我的理解是正确的,这不是文档聚类的直接结果.但是,我们可以将此概率比例视为每个文档的特征代表.之后,我们可以根据LDA分析生成的特征配置调用其他已建立的聚类方法.

我的理解是否正确?谢谢.

解决方法

是的,您可以将LDA的输出视为文档的功能;这正是Blei,Ng和Jordan在 paper that introduced LDA中所做的事情.他们这样做是为了分类,但对于聚类来说,程序是一样的.

(在机器学习术语中,LDA的这种使用被称为维数减少,因为它将特征空间的维数从| V |,词汇量大小减少到用户选择的某些k个主题.)

原文地址:https://www.jb51.cc/nlp/227363.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐