微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

从 txt 文件创建语料库

如何解决从 txt 文件创建语料库

我已经创建了主题模型(gensim、LDAvis 等),现在我想在上下文中查看主题模型中的单词,例如,通过查看索引。我有一个 txt 文件,其中包含我想查看的所有文本,用于主题建模。是否可以从那个 txt 文件创建一个语料库,以便我可以在这个语料库中查找某些单词的索引?

我发现了一些看起来很有希望的东西,但我真的不知道如何使用它。

import nltk
nltk.download('popular')

data_dir = "pathtomyfolder"

f = open(data_dir + 'corpus.txt','r',encoding='utf8')
raw = f.read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)

我如何从中创建一个我可以使用的文件搜索单词并查看它们的上下文)?

谢谢! (顺便说一句:完全是 Python 初学者,抱歉!)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。