如何解决在R中使用tm包进行清理和阻止时,如何保留我的唯一标识符?
#to prepare for dataframesource you must change name to doc_id and text.
textdataframe <- textdataframe %>% rename(doc_id= orig_id,text= orig.narr)
corpus=Corpus(DataframeSource(textdataframe))
corpus = tm_map(corpus,PlainTextDocument)
corpus = tm_map(corpus,tolower)
corpus[[1]][1]
#remove punctuation
corpus = tm_map(corpus,removePunctuation)
corpus[[1]][1]
#remove stopwords
corpus = tm_map(corpus,removeWords,c("cloth",stopwords("english")))
corpus[[1]][1]
#stemming
corpus = tm_map(corpus,stemDocument)
corpus[[1]][1]
最终发生的事情是我丢失了设置数据帧源时分配的唯一ID。我想进行设置并继续进行编辑,以保持整洁。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。