如何解决从textrecipes的step_lda中提取LDA每个主题每个单词的概率
我正在浏览Tidy Text Modeling book的“主题建模”一章,但是尝试将textrecipes
软件包与step_lda
一起使用LDA。
我可能会误会,但是似乎准备和榨汁默认包含step_lda
的配方会为每个文档生成按文档的按主题的概率。我该如何提取beta概率来分析主题本身?
这是我在做什么的一个例子:
devtools::install_github("EmilHvitfeldt/scotus")
library(scotus)
scotus_lda_rec <- recipe(~ .,data = scotus_sample) %>%
step_lda(text)
set.seed(123)
scotus_lda_prep <- prep(scotus_lda_rec)
scotus_lda <- juice(scotus_lda_prep)
然后要获得每个文档的最高主题,我将执行以下操作:
scotus_lda2 <- scotus_lda %>%
pivot_longer(lda_text_w1:lda_text_w10) %>%
group_by(id) %>%
top_n(1,value) %>%
select(id,top_topic = name) %>%
left_join(scotus_lda) %>%
left_join(scotus_sample %>% select(id,text))
但是,获得每个主题的热门词汇也很棒,我们将不胜感激!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。