微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

gw_idf 给出与文档中所述不同的输出维度

如何解决gw_idf 给出与文档中所述不同的输出维度

在 R 中,我对文档术语矩阵使用 gw_idf() 加权方案(每行代表一个文档,每列代表一个唯一的词),它是 lsa 库的一部分。 在 package documentation(第 23 页)中,声明:

'gw_idf() 在 n×m 矩阵中返回逆文档频率。每个单元格是 1 加上 文档数除以文档数的对数 出现。'

但是,当我运行以下代码时:

readfile <- readLines(source)
corpus <- Corpus(VectorSource(readfile),readerControl=list(language="en"))
document_term_matrix <- as.matrix(DocumentTermMatrix(corpus,control = list(stemming = FALSE,stopwords=FALSE,minWordLength=3,removeNumbers=TRUE,removePunctuation=TRUE )))
gw_idf <- gw_idf(document_term_matrix)

gw_idf 现在是一个长度等于文档数的向量。

所以,如果我理解正确的话:文档指出输出应该是一个矩阵,而我得到的输出一个向量。我对文档的解释在这里不正确吗?还是文档不正确?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。