微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

R中最快的高宽度枢转

我正在处理一个简单的表格表
date         variable   value
1970-01-01   V1         0.434
1970-01-01   V2         12.12
1970-01-01   V3         921.1
1970-01-02   V1         -1.10
1970-01-03   V3         0.000
1970-01-03   V5         312e6
...          ...        ...

对(日期,变量)是唯一的.我想将这个表变成一个广泛的表.

date         V1         V2         V3         V4         V5        
1970-01-01   0.434      12.12      921.1      NA         NA
1970-01-02   -1.10      NA         NA         NA         NA
1970-01-03   0.000      NA         NA         NA         312e6

而且我想以最快的方式做到这一点,因为我必须重复使用1e6记录的表.在R本机模式下,我相信,通过data.table,tapply(),reshape()和d * ply()都以速度为主.我想测试后者对基于sqlite的解决方案(或其他DB)的性能.以前做过这样吗?有性能提升吗?而且,当“宽”字段(日期)的数量是可变的并且不是预先知道的时候,在sqlite中如何将它们转换成高到全的?

我使用一种基于自定义功能方法,但是速度更快一个数量级(主要是因为没有每个单元格功能调用).

从Prasad的帖子使用高的时间:

pivot = function(col,row,value) {
  col = as.factor(col)
  row = as.factor(row)
  mat = array(dim = c(nlevels(row),nlevels(col)),dimnames = list(levels(row),levels(col)))
  mat[(as.integer(col) - 1L) * nlevels(row) + as.integer(row)] = value
  mat
}

> system.time( replicate(100,wide <- with(tall,tapply( value,list(dt,tkr),identity))))
   user  system elapsed 
  11.31    0.03   11.36 

> system.time( replicate(100,pivot(tkr,dt,value))))
   user  system elapsed 
    0.9     0.0     0.9

关于订购的可能问题,不应该有任何问题:

> a <- with(tall,value))
> b <- with(tall[sample(nrow(tall)),],value))
> all.equal(a,b)
[1] TRUE

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐