带有map2_df的2个数据集之间的差异未在函数中提供所需的结果,但单独运行时可以正常工作

如何解决带有map2_df的2个数据集之间的差异未在函数中提供所需的结果,但单独运行时可以正常工作

我有一个计算两个数据集之间差异的函数,该函数在小型数据集上可以正常使用,但是当我在大型数据集上尝试时,它给我一个错误,我无法理解的是,当我单独运行每个步骤都可以正常工作,但是一旦我运行了整个功能,就会给我一个错误。

# function 
soustraction.j=function(D,R,i,threshold){
  D=as.data.frame(D)
  R=as.data.frame(R)
  dif=purrr::map2_df(D[-1],R[i,-1],`-`)
  dif[dif<0] = 0
  dif$mismatch=rowSums(dif)
  dif= cbind(ID = D[1],R[1],dif)
  dif=dif[which(dif$mismatch <= threshold),]
  return(dif)
}

# trying it on a small dataset 
# small data sets
#####################################
# data frame for recipients
IDr= c(seq(1,4))
BTR=c("A","B","AB","O")
data_R=data.frame(IDr,BTR,A=rep(0,4),B=c(rep(0,3),1),C=c(rep(1,0),D=rep(1,E=c(rep(0,2),rep(1,stringsAsFactors=FALSE)

  data_R
  IDr BTR A B C D E
1   1   A 0 0 1 1 0
2   2   B 0 0 1 1 0
3   3  AB 0 0 1 1 1
4   4   O 0 1 0 1 0

# data frame for donors 
IDd= c(seq(1,8))
BTD= c(rep("A",each=2),rep("B",rep("AB",rep("O",each=2))
WD= c(rep(0.25,rep(0.125,rep(0.5,each=2))
data_D=data.frame(IDd,BTD,A=c(rep(0,6),1,7),8),WD,stringsAsFactors=FALSE)

  data_D
  IDd BTD A B C D E    WD
1   1   A 0 0 1 1 0 0.250
2   2   A 0 0 1 1 0 0.250
3   3   B 0 0 1 1 0 0.125
4   4   B 0 0 1 1 0 0.125
5   5  AB 0 0 1 1 0 0.125
6   6  AB 0 0 1 1 0 0.125
7   7   O 1 1 1 1 1 0.500
8   8   O 1 1 0 1 0 0.500

# Applying function
 soustraction.j(data_D[,c(1,3:7)],data_R[,3)
  IDd IDr A B C D E mismatch
1   1   1 0 0 0 0 0        0
2   2   2 0 0 0 0 0        0
3   3   3 0 0 0 0 0        0
4   4   4 0 0 0 0 0        0
5   5   1 0 0 0 0 0        0
6   6   2 0 0 0 0 0        0
7   7   3 1 1 0 0 1        3
8   8   4 1 1 0 0 0        2

###############################################
######  different datasets   #################

######### generating a pool of donor#########
set.seed(1023)
x=t(replicate(1000,rbinom(400,0.5)))
colnames(x)=paste0("epi",sprintf("%02d",1:400))
pool1=as.data.frame(x)
duptimes <- c(5,10),rep(0,298),rep(2,200),rep(3,100),rep(4,50),40),10)
# Create an index of the rows you want with duplication
idx <- rep(1:nrow(pool1),duptimes)
# Use that index to generate the new data frame
dupdf <- pool1[idx,]
pool=rbind(pool1,dupdf)
y=runif(2025)
freq.g=y/sum(y)
BTD=replicate(2025,sample(c("A","O"),prob = c(0.42,0.09,0.03,0.46)))
pooldup=as.data.frame(cbind(IDd=seq(1:2025),pool,freq.g))

pooldup[1:5,1:6]
  IDd BTD epi01 epi02 epi03 epi04
1   1   A     0     0     1     0
2   2   O     0     1     1     1
3   3   O     1     1     1     1
4   4  AB     1     0     0     0
5   5   A     1     1     1     0

######### generating recipient data#########
set.seed(1024)
x1=t(replicate(20,0.5)))
colnames(x1)=paste0("epi",1:400))
x1r=as.data.frame(x1)
BTR=replicate(20,0.46)))
rdata=as.data.frame(cbind(IDr=seq(1:20),x1r))

 rdata[1:5,1:6]
  IDr BTR epi01 epi02 epi03 epi04
1   1   B     0     1     0     0
2   2   B     1     1     0     0
3   3   O     1     1     1     1
4   4   A     0     0     0     0
5   5   O     1     1     0     0

# Applying the function 
soustraction.j(pooldup[,3:402)],rdata[,75)
#  Error in data.frame(...,check.names = FALSE) : 
# arguments imply differing number of rows: 2025,20 

当我单独运行步骤purrr::map2_df(D[-1],-) 时,它可以工作,但不在功能内。如果我的代码太长,我很抱歉,我只是不知道此错误来自何处。谢谢您的帮助。

解决方法

错误在cbind中。 dif是具有2025行的数据帧,而R具有20行的数据帧。

cbind通常会回收值

cbind(1:2,1:3)
#> [,1] [,2]
#> [1,]    1    1
#> [2,]    2    2
#> [3,]    1    3
#> Warning message:
#>   In cbind(1:2,1:3) :
#>   number of rows of result is not a multiple of vector length (arg 1)

但是,对于数据帧,它会因部分回收而出错

x <- data.frame(a = 1:2)
y <- data.frame(a = 1:3)
cbind(x,y)
#> Error in data.frame(...,check.names = FALSE) : 
#>   arguments imply differing number of rows: 2,3

如果您希望小数重新整理与cbind一起使用,请转换为matrix并设置行数

cbind(matrix(unlist(x),ncol = 1,nrow = 3),matrix(unlist(y),nrow = 3))
#>        x
#> [1,] 1 1
#> [2,] 2 2
#> [3,] 1 3
#> Warning message:
#>   In matrix(unlist(x),nrow = 3) :
#>   data length [2] is not a sub-multiple or multiple of the number of rows [3]

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)&gt; insert overwrite table dwd_trade_cart_add_inc &gt; select data.id, &gt; data.user_id, &gt; data.course_id, &gt; date_format(
错误1 hive (edu)&gt; insert into huanhuan values(1,&#39;haoge&#39;); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive&gt; show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 &lt;configuration&gt; &lt;property&gt; &lt;name&gt;yarn.nodemanager.res