如何解决如何按最相关的词对文本进行聚类
比如说,我有一堆文本、书籍或文件。每个文档都有某种肖像,其中肖像是一组对(字重)。
例如,一本关于算法和数据结构的书可以有这样的画像:
排序 - 0.025
合并 - 0.0003
气泡 - 0.0001
基本上,这个想法是从文档中获取主要词,即与该特定文本最相关的词。 这些文档平均有数千对。
现在,对于主要部分,我想将所有这些文档分成不同的组。一般的算法是,如果两本书有很多相似的词,并且这些词的权重相等,那么这些书很可能属于同一组。
问题是,我不知道从哪里开始,我已经阅读了 k-means 算法,它似乎与我的想法非常接近。有什么方法可以指导我,或者,您知道一些更好的算法来聚类文档吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。