r - 为什么当我使用预测数据集时我的 SVM 函数失败,但测试和训练数据集可以?

如何解决r - 为什么当我使用预测数据集时我的 SVM 函数失败,但测试和训练数据集可以?

我有一张包含门票信息的表格。 一列是票号,另外三列是自由格式文本字段,其中包含多个英文单词,最后一列(分类)用于分配给的组。

为简单起见,我只是将 Text### 作为单元格值,但实际上每个 Field1、Field2 和 Field3 列都有多个句子,其中包含多个英语单词。

数据如下。在同一个表中,我们提供了标识正确组的行,以及一些等待分配给相应组的工单。

票号 Field1 Field2 Field3 DataOneY
00000001 Text101 Text102 Text103 B B
00000002 Text101 Text102 Text103 A A
00000003 Text101 Text102 Text103 B B
00000004 Text101 Text102 Text103 B B
00000005 Text101 Text102 Text103 C C
........ ....... ....... ....... ...... ........
00000789 Text101 Text102 Text103
00001232 Text101 Text102 Text103
00012988 Text101 Text102 Text103
........ ....... ....... ....... ...... ........

手头的任务是,根据之前的数据,通过使用所有自由格式文本字段中的词,使用 SVM 来预测组分配。

所以我构建了 VCorpus 和 DTM,然后开始构建我的训练、测试和预测数据框。

tSparse 数据框如下所示(Ticket ID 用作行名称)

Word1 Word2 Word3 ..... WordN DataOneY
00000001 0 1 0 ..... 2 B B
00000001 1 1 3 ..... 0 B B
00000002 0 1 0 ..... 1 B B
00000103 2 3 3 ..... 0 B B
00000084 0 1 0 ..... 0 B B
.... ... ... ... ..... ... ... ...
00001249 0 1 0 ..... 2
00023232 0 2 2 ..... 1
00000098 4 1 0 ..... 1
.... ... ... ... ..... ... ... ...
buildDocCorpus <- reactive({
    #build the VCorpus and DTM
    #Build general dataframe with predictions to split train and test
    tSparse1_r<-tSparse%>%filter(tSparse$dataOneY!="")

    #make sure output column is a factor
    tSparse1_r$dataOneY<-factor(tSparse1_r$dataOneY)
    #Split into training and test dataframes (sets)
    trainSparse <- stratified(tSparse1_r,"dataOneY",.9,keep.rownames=TRUE)
    #make sure trainSparse is a dataframe and use ticket id as index (row names)
    trainSparse <- as.data.frame(trainSparse)
    rownames(trainSparse) <- trainSparse$rn
    trainSparse$rn <- NULL
    #create test dataframe by selecting tickets whose ID doesn't appear in training
    testSparse = subset(tSparse1_r,!(rownames(tSparse1_r) %in% rownames(trainSparse)))
    #build predict set with rows that don't have a group assigned
    PredictSparse1<-tSparse%>%filter(dataOneY==""|(is.na(dataOneY)))
    PredictSparse1<-subset(PredictSparse1,select = -c(dataOneY))
    return(
          list(
            trainSparse = trainSparse,testSparse = testSparse,PredictSparse = PredictSparse1
          )
        )
      })

cfMtxSVM <- function(mymode){
    #browser()
    mymode = toString(mymode)
    bdc <- buildDocCorpus()
    trainSparse <- bdc$trainSparse
    if(mymode == "test"){
      mySparse <- bdc$testSparse
    }
    else if (mymode == "predict"){
      mySparse <- bdc$PredictSparse
    }


    #subset.test <- test[filt,]
    #rf =randomForest(dataOneY~ .,data=trainSparse)
    #PredictRF = predict(rf,newdata = mySparse)
    #
    trctrl <- trainControl(method = "repeatedcv",number = 10,repeats = 3)
    svm_Linear <- train(dataOneY ~.,data = trainSparse,method = "svmLinear",trControl=trctrl,preProcess = c("center","scale"),tuneLength = 10)
    test_svm1 <- predict(svm_Linear,newdata = mySparse)

    #test_svm
    return(
      list(
        testOneY = mySparse$dataOneY,test_svm = test_svm1,trainSparse = trainSparse
      )
    )
  }

当我这样运行程序时:

tb1 <- cfMtxSVM(mymode =  toString("predict"))

我收到以下错误:

Warning: Error in model.frame.default: factor Group has new level 

[没有可用的堆栈跟踪]

当然,GroupDataOneY 列在预测数据集中都是不适用的。

根据我的调查,我似乎需要为预测数据集中的 Group 列分配级别。这些是我尝试过的所有尝试,但都返回错误:

#Attempt 1: Remove both output columns
#PredictSparse1<-subset(PredictSparse1,select = -c(Group,dataOneY))

#Attempt 2: Make PredictSpare Group column a factor
#PredictSparse1$Group<-factor(PredictSparse1$Group)

#Attempt 3: Copy Levels from trainSparse to PredictSparse
#levels(PredictSparse1$Group) <- levels(trainSparse$Group)

#Attempt 4: Like 3 but making it factor
#PredictSparse1$Failure_Mode <- factor(
#  PredictSparse1$Failure_Mode,levels = levels(trainSparse$Failure_Mode)
#)

#Attempt 5: Manually specify levels and add NA that is in output column
lvls <- c('A','B','C')
PredictSparse1$Group <-  sapply(PredictSparse1$Group,factor,levels=lvls)
PredictSparse1$Group <- addNA(PredictSparse1$Group)

#Attempt 6: Same as 5 but for the three datasets (train,test and predict)

我已经无能为力了,请您解释一下如何解决 has new level 错误。

如果有帮助,我还使用完全相同的训练、测试和预测数据集运行 RandomForest,并且每次都运行正常,除非我之前尝试修复级别错误,但它也崩溃了。

解决方法

菜鸟错误!

dataOneYGroup 是副本,所以我实际上在模型中有数据泄漏。

从训练和测试数据集中删除 Group 并重新运行模型训练后,我能够在 SVM predict 中正确获得结果。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)&gt; insert overwrite table dwd_trade_cart_add_inc &gt; select data.id, &gt; data.user_id, &gt; data.course_id, &gt; date_format(
错误1 hive (edu)&gt; insert into huanhuan values(1,&#39;haoge&#39;); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive&gt; show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 &lt;configuration&gt; &lt;property&gt; &lt;name&gt;yarn.nodemanager.res