如何解决为什么我的停用词不会删除 R 数据框中的“?&”?
我在数据框中有一列,old_df
。
示例行如下所示:
data
trying URL 'https://maps.googleapis.com/maps/api/streetview?&location=13.5146367326733,100.380686367492&size=8000x5333&heading=0&fov=90&pitch=0&key='Content type 'image/jpeg' length 59782 bytes (58 KB)
downloaded 58 KB
使用stopwords
,我删除了我不想要的词,留下:
data
?&13.5146367326733,100.380686367492
?&13.5162026732673,100.66581378616
stopwords = c('trying','URL',"'",'&','location=','https://maps.googleapis.com/maps/api/streetview','size=8000x5333','heading','=0&fov=90&pitch=0&key=','Content','type','image/jpeg','length','bytes','KB')
require('tm')
new_df <- as.data.frame(removeWords(old_df$data,stopwords))
但是,?&
保留在数字之前的 data
列中(我不想要)。我尝试在 ?
中包含 &
、?&
和 stopwords
,但它们仍然存在。任何想法如何删除它们?
确实,当我在 stopwords
中包含上述组合时,我收到错误:
PCRE pattern compilation error 'quantifier does not follow a repeatable item' at '?|&|')\b'
解决方法
使用gsub()
。停用词只会删除被空格包围的“词”。
Base R
解决方案:
gsub("^\\?&","",old_df$data)
stringr
解决方案:
library(stringr)
stringr::str_remove(old_df$data,"^\\?&")
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。