微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在 tm R 中组合单词没有达到预期的结果

如何解决在 tm R 中组合单词没有达到预期的结果

我正在尝试将几个词组合起来,以便将它们算作一个词。 在此示例中,我希望将 valvaluatin 计为 valuation

我一直用来尝试执行此操作的代码如下:

#load in package
library(tm)

replaceWords <- function(x,from,keep){
  regex_pat <- paste(from,collapse = "|")
  gsub(regex_pat,keep,x)
}


oldwords <- c("val","valuati")
newword  <- c("valuation")

TextDoc2 <- tm_map(TextDoc,replaceWords,from=oldwords,keep=newword)

然而,这并不像预期的那样工作。只要单词中有 val,它就会被替换为 valuation。例如,equivalent 变为 equivaluation。我如何解决这个错误并达到我想要的结果?

解决方法

试试这个功能-

replaceWords <- function(x,from,keep){
  regex_pat <- sprintf('\\b(%s)\\b',paste(from,collapse = '|'))
  gsub(regex_pat,keep,x)
}

valequivalent 匹配。添加单词边界可阻止这种情况发生。

grepl('val','equivalent')
#[1] TRUE
grepl('\\bval\\b','equivalent')
#[1] FALSE

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?