如何基于以字符串形式写入的相似但不准确的时间变量合并两个数据集使用 R?

如何解决如何基于以字符串形式写入的相似但不准确的时间变量合并两个数据集使用 R?

我有两个数据集要合并,看起来像这样

    time price
0   1103     5
1   0010    10
2   0100     6
3   0201     8
4   0015     7
5   0400     4
6   0500     6
7   0800     3
8   1000     4
9   1140     5
10  1400     2
11  0030     1
12  0112     0

通常如果我运行基于完全匹​​配的脚本

df1
ID|date    |       time|
 1 04/06/21   "05:02:06"
 2 05/03/21   "04:12:11"
 3 02/02/20   "03:02:10"
 4 09/09/20   "09:12:14"
 5 02/02/21   "15:18:20" 
 6 04/04/21   "14:00:00"  

df2
2ID|date    |       time|
 1 04/06/21   "05:12:06"
 2 05/03/21   "04:08:11"
 3 02/02/20   "03:09:10"
 4 09/09/20   "09:12:14"
 5 02/02/21   "15:18:20" 
 6 04/04/21   "15:00:00"

我会得到

df3 <- df2 %>% left_join(df1,by=c("incident_date","incident_time"))

请注意,我只会匹配四分之二的值,但是我希望匹配时间接近的四分之三的其余三个变量。我希望脚本在 45 分钟内做一个给予或接受,最终看起来像这样

ID|    date|time    |2ID
1  04/06/21 "05:02:06" 
2  05/03/21 "04:12:11"
3  02/02/20 "03:02:10"
4  09/09/20 "09:12:14" 4
5  02/02/21 "15:18:20" 5
6  12/14/22 "14:00:00"

我试图根据较早的堆栈溢出问题来做这样的事情,但它无法工作。有谁知道如何做到这一点

来源:Merge based on similar but not exact dates

ID|    date|time    |2ID
1  04/06/21 "05:02:06" 1
2  05/03/21 "04:12:11" 2
3  02/02/20 "03:02:10" 3
4  09/09/20 "09:12:14" 4
5  02/02/21 "15:18:20" 5
6  12/14/22 "14:00:00"

解决方法

我认为 fuzzyjoin 包最适合这种情况。

我将向两个帧添加一个 $tm (POSIXct) 列,因为这是获得清晰的“计算差异”(以秒为单位)所必需的。

df1$tm <- as.POSIXct(paste(df1$date,df1$time),format="%m/%d/%Y %H:%M:%S")
df2$tm <- as.POSIXct(paste(df2$date,df2$time),format="%m/%d/%Y %H:%M:%S")
fuzzyjoin::difference_left_join(df1,df2,by = "tm",max_dist = 45*60)
#   ID.x   date.x   time.x                tm.x ID.y   date.y   time.y                tm.y
# 1    1 04/06/21 05:02:06 0021-04-06 05:02:06    1 04/06/21 05:12:06 0021-04-06 05:12:06
# 2    2 05/03/21 04:12:11 0021-05-03 04:12:11    2 05/03/21 04:08:11 0021-05-03 04:08:11
# 3    3 02/02/20 03:02:10 0020-02-02 03:02:10    3 02/02/20 03:09:10 0020-02-02 03:09:10
# 4    4 09/09/20 09:12:14 0020-09-09 09:12:14    4 09/09/20 09:12:14 0020-09-09 09:12:14
# 5    5 02/02/21 15:18:20 0021-02-02 15:18:20    5 02/02/21 15:18:20 0021-02-02 15:18:20
# 6    6 04/04/21 14:00:00 0021-04-04 14:00:00   NA     <NA>     <NA>                <NA>

显然需要大量的名称清理,这个怎么样:

fuzzyjoin::difference_left_join(df1,df2[,c("ID","tm")],max_dist = 45*60) %>%
  select(ID = ID.x,date,time,ID2 = ID.y)
#   ID     date     time ID2
# 1  1 04/06/21 05:02:06   1
# 2  2 05/03/21 04:12:11   2
# 3  3 02/02/20 03:02:10   3
# 4  4 09/09/20 09:12:14   4
# 5  5 02/02/21 15:18:20   5
# 6  6 04/04/21 14:00:00  NA

注意:可以找到多个匹配项(如果多个事件在 45 分钟内),因此您可能需要添加分组过滤器:

... %>%
  group_by(ID.x) %>%
  filter(which.min(abs(tm.x - tm.y)))

(需要在我重命名和删除 tm.* 字段之前完成)


数据

df1 <- structure(list(ID = 1:6,date = c("04/06/21","05/03/21","02/02/20","09/09/20","02/02/21","04/04/21"),time = c("05:02:06","04:12:11","03:02:10","09:12:14","15:18:20","14:00:00")),class = "data.frame",row.names = c(NA,-6L))
df2 <- structure(list(ID = 1:6,time = c("05:12:06","04:08:11","03:09:10","15:00:00")),-6L))

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)&gt; insert overwrite table dwd_trade_cart_add_inc &gt; select data.id, &gt; data.user_id, &gt; data.course_id, &gt; date_format(
错误1 hive (edu)&gt; insert into huanhuan values(1,&#39;haoge&#39;); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive&gt; show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 &lt;configuration&gt; &lt;property&gt; &lt;name&gt;yarn.nodemanager.res