微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

内存映射文件格式操作大于内存文件箭?

如何解决内存映射文件格式操作大于内存文件箭?

我有一个包含 50K 列、500K 行的矩阵,我想在不使用太多内存(例如内存映射)的情况下非常快速地按列名/索引进行子集化。大多数列是 {NA,1,2},少数 (1%) 列是定量或字符串。 R 中哪些文件格式/框架最适合执行此操作?

我以为我可以为此使用feather,但它似乎加载了整个文件并使用了几乎与data.table 一样多的内存。等效,即使我设置 as_data_frame=F。

  f="/path/to/matrix.50Kcolums.500Krows.tsv"
  df <- data.table::fread(f) #
  arrow::write_feather(df,paste0(f,".feather"))  
  df <- read_feather(f.arrow,as_data_frame = FALSE) # uses almost as much memory as fread()
  df <- as.data.frame(df[,grep("columns_with_some_name",names(df))]) # this is what I need it to do fast and without using much memory. 

有什么想法吗?

解决方法

@Jon Keane 是对的。使用 col_select 应该可以让您实现这一目标。

(conbench2) pace@pace-desktop:~/dev/arrow/r$ /usr/bin/time -v Rscript -e "print(arrow::read_feather('/home/pace/dev/data/feather/big/data.feather',col_select=c('f0','f7000','f32000'),as_data_frame = FALSE))"
Table
500000 rows x 3 columns
$f0 <int32>
$f7000 <int32>
$f32000 <int32>
    Command being timed: "Rscript -e print(arrow::read_feather('/home/pace/dev/data/feather/big/data.feather',as_data_frame = FALSE))"
    User time (seconds): 1.16
    System time (seconds): 0.51
    Percent of CPU this job got: 150%
    Elapsed (wall clock) time (h:mm:ss or m:ss): 0:01.11
    Average shared text size (kbytes): 0
    Average unshared data size (kbytes): 0
    Average stack size (kbytes): 0
    Average total size (kbytes): 0
    Maximum resident set size (kbytes): 262660
    Average resident set size (kbytes): 0
    ...

话虽如此,当您的整个文件不适合内存时,羽毛可能不是最佳格式。在这种情况下,即使您指定内存映射,您仍然必须执行 I/O。如果您一次又一次地重复访问相同的一小组列,您应该没问题。它们将很快加载到页面缓存中,I/O 成本将消失。

另一方面,如果您每次都访问随机列,或者您希望在运行之间有很大的时间间隔(在这种情况下页面不会在页面缓存中),您可以考虑镶木地板。 Parquet 将需要更多 CPU 时间来压缩/解压缩,但应该会减少您需要加载的数据量。当然,对于相对少量的数据(例如该数据集的 0.2%),性能差异可能很小。即便如此,它也可以节省您的硬盘,因为您描述的表占用了大约 100GB 的空间,并且由于“大多数列是 {NA,1,2}”,我希望数据是高度可压缩的。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?