如何解决R - 块列表使用的 RAM 是否比读取/写入每个块少?
我有一系列数据集,我想在 R 中读入、清理和写入。我目前将它们全部读入数据帧列表,然后一次性全部写入。数据帧可能会变得非常大并且相对较快地耗尽 RAM。我正在尝试对数据进行分块,以便代替数据帧列表,我有一个仍然由数据帧索引的列表,但列表中的每个项目都是一个块列表。
显然,答案取决于上下文,我无法在这里分享我的数据,但我的主要问题是:
以下哪种方法在规模上使用最少的 RAM(即许多数据帧的大小 > 10GB)?
-
现状,一次将所有数据帧读入数据帧列表,根据需要进行转换,然后写入。
-
使用
readr::read_csv_chunked
或chunked
library 读取所有数据帧,列表中的每一项都是数据帧块的列表。使用lapply
遍历列表列表以根据需要进行转换,然后使用chunked::collect
连接块并写入每个数据帧。 -
将整个读取、转换和写入协议放入一个循环中,以便一次只将一个块加载到内存中。
如果此问题已在其他地方得到解答而我无法找到,我们深表歉意。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。