如何解决时空包问题
我想对德国各县的 PM10 进行月度时空分析并绘制它们。稍后我想分析不同的回归模型。但是我无法创建一个时空对象,我需要进一步分析和其他我将要处理的研究问题。所以,我首先开始尽可能地了解方法和包,但我仍然坚持,我无法创建一个合适的时空对象。
我将以下可重现代码作为指南(来源:https://edzer.github.io/UseR2016/):
data("Produc",package = "plm")
Produc[1:5,1:9]
library(maps)
states.m = map('state',plot=FALSE,fill=TRUE)
IDs <- sapply(strsplit(states.m$names,":"),function(x) x[1])
library(maptools)
states = map2Spatialpolygons(states.m,IDs=IDs)
yrs = 1970:1986
time = as.POSIXct(paste(yrs,"-01-01",sep=""),tz = "GMT")
time
library(spacetime)
Produc.st = STFDF(states[-8],time,Produc[order(Produc[2],Produc[1]),])
library(RColorBrewer)
stplot(Produc.st[,"unemp"],yrs,col.regions = brewer.pal(9,"YlOrRd"),cuts = 9)
例如,我想评估当前的 PM10 值,直到 2020 年 6 月 1 日,我已经收到了来自德国联邦环境局的数据。数据如下: PM10是我的df,感兴趣的值是TMW,即PM10的日均值。
PM10[sample(nrow(PM10),10),]
# A tibble: 10 x 9
Station Komponente Datum TYPEOfareA TYPEOFSTATION TMW TMW_R TypeOfData Lieferung
<chr> <chr> <date> <chr> <chr> <dbl> <dbl> <chr> <chr>
1 DENI051 PM10 2020-02-28 ländliches Gebiet Hintergrund 5.40 5 S M
2 DETH095 PM10 2020-05-12 städtisches Gebiet Hintergrund 9.74 10 S M
3 DEBY118 PM10 2020-04-30 städtisches Gebiet Hintergrund 5.27 5 S M
4 DEBY072 PM10 2020-05-03 ländlich regional Hintergrund 8.43 8 S M
5 DEHE060 PM10 2020-06-01 ländlich regional Hintergrund 9.43 9 S M
6 DEBW087 PM10 2020-05-28 ländlich regional Hintergrund 11.0 11 S M
7 DEBW038 PM10 2020-03-11 städtisches Gebiet Hintergrund 4.28 4 S M
8 DENW065 PM10 2020-01-10 ländlich regional Hintergrund 2.16 2 S M
9 DENW096 PM10 2020-05-17 vorstädtisches Gebiet Hintergrund 13.2 13 T M
10 DEHE050 PM10 2020-04-20 ländliches Gebiet Hintergrund 8.20 8 S D
然后我从 https://gadm.org/download_country_v3.html --> Germany --> R(sp) --> level2 下载了一个 sp 文件
其中包含德国县级地图,如下所示:
> de
class : SpatialpolygonsDataFrame
features : 403
extent : 5.866251,15.04181,47.27012,55.05653 (xmin,xmax,ymin,ymax)
crs : +proj=longlat +datum=wgs84 +no_defs +ellps=wgs84 +towgs84=0,0
variables : 13
names : GID_0,NAME_0,GID_1,NAME_1,NL_NAME_1,GID_2,NAME_2,VARNAME_2,NL_NAME_2,TYPE_2,ENGTYPE_2,CC_2,HASC_2
min values : DEU,Germany,DEU.1_1,Baden-Württemberg,NA,DEU.1.1_1,Ahrweiler,Kreis,district,01001,DE.BB.BH
max values : DEU,DEU.9_1,Thüringen,DEU.9.9_1,Zwickau,Water body,16077,DE.TH.WR
由于我的 df 不包括县级的地理配准,而是站代码,因此我已将此信息添加到数据集中。我的 sp 文件中的县 ID 是 CC_2,如果 ID 有四位数字,则它是一个以 0 开头的五位数字代码。示例:
de$CC_2
[1] "08425" "08211" "08426" "08115" "12065" "12066" "12067"
我猜的第一个问题是,当我通过车站代码将地理信息添加到我的 df 时,我在 df 中得到了我的 CC_2,如下所示:
> PM10_m[sample(nrow(PM10_m),3),]
Station Komponente Datum TYPEOfareA TYPEOFSTATION TMW TMW_R TypeOfData Lieferung CC_2
11448 DEBW081 PM10 2020-06-07 städtisches Gebiet Hintergrund 6.775362 7 T M 8212
1566 DEBB066 PM10 2020-04-19 ländlich regional Hintergrund 11.162500 11 S M 12061
7174 DEBW027 PM10 2020-03-20 städtisches Gebiet Hintergrund 34.791667 35 S M 8415
如你所见,四位 ID 开头的 0 缺失,所以我检查了变量的结构:
str(PM10_m$CC_2)
chr [1:47350] "12062" "12062" "12062" "12062" "12062" "12062" "12062" "12062" "12062" "12062" "12062" "12062" "12062" ...
str(de$CC_2)
chr [1:403] "08425" "08211" "08426" "08115" NA "08435" "08315" "08235" "08316" "08236" "08116" "08311" "08237" "08117" ...
所以,两者都是 chr 但如果每四位 ID 匹配它们就不会匹配!所以,我曾经通过将两个变量都设为数字来处理这个问题。在这一点上,我不确定我这样做是否正确。
> PM10_m$CC_2<-as.numeric(PM10_m$CC_2)
> de$CC_2.2<-as.numeric(de$CC_2)
在合并它们之前,我曾经按县 ID 和日期聚合 PM10_m df。
PM10_aggr<-aggregate(PM10_m$TMW,by = list(PM10_m$Datum,PM10_m$CC_2),FUN="mean",na.rm=T)
我现在合并了 df 和多边形 df de,看看它是否有效。
de_t<-merge(de,PM10_aggr,by.x="CC_2.2",by.y="CC_2",na.rm=T,duplicateGeoms=TRUE)
据我所知,它匹配正确: Plotting with tmap
现在,我开始创建一个时空对象,按照指南中的步骤(见开头):
首先我将月份添加到我的 df PM10_aggr
PM10_f<-PM10_aggr
PM10_f$month<-strftime(PM10_aggr$date,format = "%m")
> PM10_f[sample(nrow(PM10_f),4),]
date CC_2 TMW10 month
26303 2020-04-04 13062 6.136208 04
24703 2020-05-12 12072 7.506250 05
4808 2020-03-16 3452 13.933222 03
30502 2020-04-17 16051 30.121002 04
创建 SpaceTime 对象:
month = 01:06
time = as.POSIXct(paste(month,tz = "GMT")
time
[1] "0001-01-01 GMT" "0002-01-01 GMT" "0003-01-01 GMT" "0004-01-01 GMT" "0005-01-01 GMT" "0006-01-01 GMT"
它不像指南中那样工作,但据我所知,它只是创建和分类时间对象。所以,我走在指南的前面:
library(spacetime)
pm10.st = STFDF(de,PM10_f[order(PM10_f[4],PM10_f[1]),])
Error in validityMethod(object) :
nrow(object@data) == length(object@sp) * nrow(object@time) is not TRUE
我了解到命令 STFDF 无法处理缺失的地理点,我必须改用命令 STIDF。
所以,这就是我得到的:
pm10.st = STIDF(de,])
> pm10.st
An object of class "STIDF"
Slot "data":
date KRS TMW10 month month1
1 2020-01-01 1002 33.34608 01 1
183 2020-01-01 1003 81.06596 01 1
365 2020-01-01 1051 53.14400 01 1
547 2020-01-01 1053 34.36517 01 1
729 2020-01-01 1054 NaN 01 1
911 2020-01-01 1057 32.04604 01 1
Slot "sp":
class : SpatialpolygonsDataFrame
features : 6
extent : 8.108812,10.24141,47.5024,48.86768 (xmin,0
variables : 14
names : GID_0,HASC_2,CC_2.2
min values : DEU,Alb-Donau-Kreis,Landkreis,08115,DE.BW.AD,8115
max values : DEU,DEU.1.6_1,Bodenseekreis,08435,DE.BW.BR,8435
Slot "time":
timeIndex
0001-01-01 1
0002-01-01 2
0003-01-01 3
0004-01-01 4
0005-01-01 5
0006-01-01 6
Slot "endTime":
[1] "0001-01-01 GMT" "0002-01-01 GMT" "0003-01-01 GMT" "0004-01-01 GMT" "0005-01-01 GMT" "0006-01-01 GMT"
当我看到这个命令只从 df 中取出 6 行并与多边形 df 的 6 个特征匹配时,我真的很惊讶。我可以绘制这个 STIDF:Plot STIDF
但是正如您所看到的,它无法正常工作。所以,我猜,我可能必须按月和县 ID 聚合:
pm10.f<-aggregate(PM10_f$TMW10,by = list(PM10_f$month,PM10_f$KRS),na.rm=T)
> str(pm10.f)
'data.frame': 1092 obs. of 3 variables:
$ month: chr "01" "02" "03" "04" ...
$ CID : num 1002 1002 1002 1002 1002 ...
$ MMW10: num 13.3 11.1 14.2 16.1 12.4 ...
### CID is the County ID ###
> pm10.f[sample(nrow(pm10.f),5),]
month CID MMW10
234 06 5158 16.637490
704 02 9775 11.083747
1030 04 16055 18.934881
842 02 13054 8.594628
513 03 8121 16.9119
所以,我再次尝试使用 STIDF 命令:
pm10.stf = STIDF(de,pm10.f[order(pm10.f[1],pm10.f[1]),])
> pm10.stf
An object of class "STIDF"
Slot "data":
month CID MMW10
1 01 1002 13.31264
7 01 1003 17.81540
13 01 1051 17.67919
19 01 1053 12.99228
25 01 1054 NaN
31 01 1057 14.71878
Slot "sp":
class : SpatialpolygonsDataFrame
features : 6
extent : 8.108812,8435
Slot "time":
timeIndex
0001-01-01 1
0002-01-01 2
0003-01-01 3
0004-01-01 4
0005-01-01 5
0006-01-01 6
Slot "endTime":
[1] "0001-01-01 GMT" "0002-01-01 GMT" "0003-01-01 GMT" "0004-01-01 GMT" "0005-01-01 GMT" "0006-01-01 GMT"
我遇到了同样的问题,同样只有 6 个随机行与 6 个县匹配:plot STIDF 2
即使我删除了 order 命令,df 中的 6 行和 polygon df 中的 6 个特征也遇到了同样的问题:
pm10.stf = STIDF(de,pm10.f)
> pm10.stf
An object of class "STIDF"
Slot "data":
month CID MMW10
1 01 1002 13.31264
2 02 1002 11.10590
3 03 1002 14.19649
4 04 1002 16.10512
5 05 1002 12.38511
6 06 1002 13.10104
Slot "sp":
class : SpatialpolygonsDataFrame
features : 6
extent : 8.108812,8435
Slot "time":
timeIndex
0001-01-01 1
0002-01-01 2
0003-01-01 3
0004-01-01 4
0005-01-01 5
0006-01-01 6
Slot "endTime":
[1] "0001-01-01 GMT" "0002-01-01 GMT" "0003-01-01 GMT" "0004-01-01 GMT" "0005-01-01 GMT" "0006-01-01 GMT"
我在 df 中得到了一个县的 6 行,但有 6 个不同的 多边形特征。 STIDF 命令似乎只是从 polygon df 中取出前 6 个多边形。
解决方法
首先,我注意到我的 shapefile 包含的元素多于实际区域的数量。 这是因为 shapefile 包含“DoubleGeoms”。所以我将shapefile聚合如下:
raster::aggregate(de,by="AGS")
然后我突然想到我在思考上有一个逻辑错误。所以我有 401 个区,实际上有 6 个测量时间(6 个月),所以我的数据框应该有 401*6=2406 行。这意味着我必须调整我的数据框。所以我拿了401个区,把它们扩大了:
df<-tidyr::expand_grid(KRS=df$KRS,1:6)
使用“merge”命令按地区和月份将变量添加到新数据框后,我现在可以使用“spacetime”包中的“STFDF”命令:
df.stf <- STFDF(de2,time,df[order(df[2],df[1]),])
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。