如何解决在 tm R 中组合单词没有达到预期的结果
我正在尝试将几个词组合起来,以便将它们算作一个词。
在此示例中,我希望将 val
和 valuatin
计为 valuation
。
我一直用来尝试执行此操作的代码如下:
#load in package
library(tm)
replaceWords <- function(x,from,keep){
regex_pat <- paste(from,collapse = "|")
gsub(regex_pat,keep,x)
}
oldwords <- c("val","valuati")
newword <- c("valuation")
TextDoc2 <- tm_map(TextDoc,replaceWords,from=oldwords,keep=newword)
然而,这并不像预期的那样工作。只要单词中有 val
,它就会被替换为 valuation
。例如,equivalent
变为 equivaluation
。我如何解决这个错误并达到我想要的结果?
解决方法
试试这个功能-
replaceWords <- function(x,from,keep){
regex_pat <- sprintf('\\b(%s)\\b',paste(from,collapse = '|'))
gsub(regex_pat,keep,x)
}
val
与 equivalent
匹配。添加单词边界可阻止这种情况发生。
grepl('val','equivalent')
#[1] TRUE
grepl('\\bval\\b','equivalent')
#[1] FALSE
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。