如何解决使用dplyr和lurbridate为几天创建偏移间隔
我正在尝试使用dplyr和lubridate创建一个开始于07:00:00到06:59:59结束的“ 24小时”日,我可以用它来捕获排与一天的重叠。我尝试了几种方法,通过尝试进行分组并使用int_diff
,floor_date() + 24
,而我正在努力使这个新变量生效。例如,我需要同时使用2020-01-01 10:00:00
和2020-01-02 05:47:49
来标识“第一天”,而需要2020-01-02 07:00:01
来标识为“第二天”,依此类推。
df_ex
platoon_id disp_time
1 PLATOON 1 2020-01-01 10:06:48
2 PLATOON 1 2020-01-01 12:56:57
3 PLATOON 2 2020-01-02 07:10:30
4 PLATOON 2 2020-01-02 09:31:28
5 PLATOON 2 2020-01-02 09:45:00
6 PLATOON 2 2020-01-02 10:11:58
7 PLATOON 2 2020-01-02 10:59:09
8 PLATOON 2 2020-01-02 14:56:57
9 PLATOON 2 2020-01-03 07:45:51
10 PLATOON 3 2020-01-03 09:20:35
11 PLATOON 3 2020-01-03 10:12:29
12 PLATOON 3 2020-01-03 10:54:31
13 PLATOON 3 2020-01-03 12:55:40
14 PLATOON 3 2020-01-03 15:19:03
15 PLATOON 3 2020-01-03 16:11:51
16 PLATOON 3 2020-01-03 18:15:51
17 PLATOON 3 2020-01-03 20:39:32
18 PLATOON 3 2020-01-03 21:26:53
19 PLATOON 3 2020-01-04 03:11:38
20 PLATOON 3 2020-01-04 06:48:16
21 PLATOON 4 2020-01-04 10:27:57
22 PLATOON 4 2020-01-04 10:43:37
23 PLATOON 4 2020-01-04 19:53:20
24 PLATOON 4 2020-01-05 03:24:08
25 PLATOON 4 2020-01-05 04:22:13
任何帮助将不胜感激!
解决方法
library(magrittr)
df_ex %>%
dplyr::mutate(day_number = lubridate::yday(disp_time) - (lubridate::hour(disp_time) < 7))
我认为上面的代码为您提供了一个新变量day_number
,它对应于您想要的日期。
首先,我使用加载程序包magrittr
,以便可以使用管道%>%
。然后,我将您的数据帧“传递”到函数mutate
(位于dplyr
包中)。 mutate
采用现有数据框并创建一个新变量,在这种情况下为day_number
,该变量由等式的右侧定义。如果我们只是想要每天的数字(一年中的数字),那么我们将停止这样做。但是,您需要7小时的补偿。换句话说,1月2日凌晨6点应返回第1天,而1月2日凌晨8点应返回第2天。更确切地说,在X天少于7点的任何时间应返回X-1天。最右边的括号(lubridate::hour(disp_time) < 7)
根据声明的真实性返回TRUE或FALSE,即一天中的时间小于7am。然后R将TRUE(或FALSE)强制为1(或0),并从右侧的第一部分lubridate::yday(disp_time)
中减去该数量。
::
对于某些读者而言可能是陌生的。它允许我从名称空间(或包)调用导出的函数。因此,lubridate::yday
指的是包yday
中的函数lubridate
。
管道%>%
在处理数据帧时特别有用。您可以在免费的在线图书“ {R for data science”中阅读有关此内容的更多信息:https://r4ds.had.co.nz/
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。