技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

python – 使用潜在的语义分析进行聚类

时间：2022-09-04分类：NLP作者：编程之家原文地址AI导航网

假设我有一个文档语料库,我在其上运行LSA算法.如何使用应用SVD后获得的最终矩阵来语义聚类出现在我的文档语料库中的所有单词？维基百科说LSA可用于查找术语之间的关系. Python中是否有可用的库可以帮助我完成基于LSA语义聚类单词的任务？

尝试gensim(http://radimrehurek.com/gensim/index.html),只需按照以下说明安装：http://radimrehurek.com/gensim/install.html

那么这里是一个代码示例：

from gensim import corpora, models, similarities

documents = ["Human machine interface for lab abc computer applications",
             "A survey of user opinion of computer system response time",
             "The EPS user interface management system",
             "System and human system engineering testing of EPS",
             "Relation of user perceived response time to error measurement",
             "The generation of random binary unordered trees",
             "The intersection graph of paths in trees",
             "Graph minors IV Widths of trees and well quasi ordering",
             "Graph minors A survey"]

# remove common words and tokenize
stoplist = set('for a of the and to in'.split())
texts = [[word for word in document.lower().split() if word not in stoplist]
         for document in documents]

# remove words that appear only once
all_tokens = sum(texts, [])
tokens_once = set(word for word in set(all_tokens) if all_tokens.count(word) == 1)

texts = [[word for word in text if word not in tokens_once] for text in texts]

dictionary = corpora.Dictionary(texts)
corp = [dictionary.doc2bow(text) for text in texts]

# extract 400 LSI topics; use the default one-pass algorithm
lsi = models.lsimodel.LsiModel(corpus=corp, id2word=dictionary, num_topics=400)

# print the most contributing words (both positively and negatively) for each of the first ten topics
lsi.print_topics(10)

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：python – 使用NLTK自定义POS标记下一篇：如何使用scikit学习标记的双字母组

相关推荐

python入门-day1.1

python方向·数据分析 ·自然语言处理nlp 案例：中文分词·社交网络分析案例：人物关系分析·人工智能·深度学习·计算机视觉案例：行人检测·网络爬虫·量化交易案例：多因子策略模型

作者：编程之家时间：2022-09-04

nlp资料网站

原文地址http://blog.sina.com.cn/s/blog_574a437f01019poo.html昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文，这让我想起自己刚读研究生时茫然四顾的情形：看着学长们高谈阔论领域动态，却不知如何入门。经过研究生几年的耳濡目染，现在终于能自信地知道去哪儿了解最新科研

作者：编程之家时间：2022-09-04

Python下载PTB数据集的方法附NLP常用数据集

ptb数据集是语言模型学习中应用最广泛的数据集，常用该数据集训练RNN神经网络作为语言预测，tensorflow对于ptb数据集的读取也定义了自己的函数库用于读取，在python1.0定义了models文件用于导入ptb库函数，然而当python升级后，导入models文件时就会出现：ModuleNotFountError错误，这时需

作者：编程之家时间：2022-09-04

Newtonsoft.Json Json工具的使用、类型方法大全

Newtonsoft.JsonNewtonsoft.Json是.Net平台操作Json的工具，他的介绍就不多说了，笔者最近在弄接口，需要操作Json。以某个云计算平台的Token为例，边操作边讲解。Json转为Model将Model转为Json将LINQ转为JSONLinq操作命名空间、类型、方法大全 Json转为Model

作者：编程之家时间：2022-09-04

TechDay实录|摘取皇冠上的明珠，中文NLP的不二选择——PaddlePaddle

NLP(NaturalLanguageProcessing)自然语言处理是人工智能的一个子领域，它是能够让人类与智能机器进行沟通交流的重要技术手段，同时也是人工智能中最为困难的问题之一。因此，NLP的研究处处充满魅力和挑战，也因此被称为人工智能“皇冠上的明珠”。目前各家主流深度学习框架，都开放了相应

作者：编程之家时间：2022-09-04

做一个中文文本分类任务，首先要做的是文本的预处理，对文本进行分词和去停用词操作，来把字符串分割成词与词组合而成的字符串集合并去掉其中的一些非关键词汇（像是：的、地、得等）。再就是对预处理过后的文本进行特征提取。最后将提取到的特征送进分类器进行训练。一、什么是自然语言处

作者：编程之家时间：2022-09-04

TechDay实录|摘取皇冠上的明珠，中文NLP的不二选择——PaddlePaddle

NLP(NaturalLanguageProcessing)自然语言处理是人工智能的一个子领域，它是能够让人类与智能机器进行沟通交流的重要技术手段，同时也是人工智能中最为困难的问题之一。因此，NLP的研究处处充满魅力和挑战，也因此被称为人工智能“皇冠上的明珠”。目前各家主流深度学习框架，都开放了相应

作者：编程之家时间：2022-09-04

比较两个生产级NLP库：训练Spark-NLP和spaCy的管道

编者注：文中超链接如果不能访问可以点击“阅读原文”访问本文原页面；可以参考2018年5月21-24日伦敦Strata数据会议上的教学辅导课《使用spaCy和SparkNLP进行自然语言理解》。本系列博客的目地是通过使用两个领先的生产级语言处理库（JohnSnowLabs的ApacheSparkNLP和Explosion

作者：编程之家时间：2022-09-04

100个大型机器学习数据集汇总CV/NLP/音频方向

网站首页：网址：数据集

作者：编程之家时间：2022-09-04

NLP文本相似度

NLP文本相似度相似度相似度度量：计算个体间相似程度相似度值越小，距离越大，相似度值越大，距离越小最常用--余弦相似度：一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小余弦值接近1，夹角趋于0，表明两个向量越相似如果向量a和b不是二维而是n维

作者：编程之家时间：2022-09-04

小编推荐

苹果市值2025年有望达4万亿美元