我正在使用R包tm,我想做一些文本挖掘.这是一个文件,被视为一个单词.
我不明白有关如何加载文本文件和创建必要的对象以开始使用功能的文档,如….
stemDocument(x,language = map_IETF(Language(x)))
所以假设这是我的文档“这是R加载的测试”
如何加载数据进行文本处理并创建对象x?
解决方法
像@richiemorrisroe一样,我发现这篇文档很差.以下是我的文本如何使用tm软件包并使文档术语矩阵:
library(tm) #load text mining library setwd('F:/My Documents/My texts') #sets R's working directory to near where my files are a <-Corpus(Dirsource("/My Documents/My texts"),readerControl = list(language="lat")) #specifies the exact folder where my text file(s) is for analysis with tm. summary(a) #check what went in a <- tm_map(a,removeNumbers) a <- tm_map(a,removePunctuation) a <- tm_map(a,stripwhitespace) a <- tm_map(a,tolower) a <- tm_map(a,removeWords,stopwords("english")) # this stopword file is at C:\Users\[username]\Documents\R\win-library\2.13\tm\stopwords a <- tm_map(a,stemDocument,language = "english") adtm <-DocumentTermMatrix(a) adtm <- removeSparseTerms(adtm,0.75)
在这种情况下,您不需要指定确切的文件名.只要它是第3行中提到的目录中唯一的一个,它将被tm函数使用.我这样做是因为在第3行中没有指定文件名的成功.
如果有任何人可以建议如何获取文本到lda包中,我将不胜感激.我根本无法做到这一点.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。