微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何为分散在磁盘和每个文件中的数据正确定义 Pytorch 数据集和数据加载器?

如何解决如何为分散在磁盘和每个文件中的数据正确定义 Pytorch 数据集和数据加载器?

  1. 我将数据分散在多个文件中,例如 f1f2f3,其路径为 p1p2p3
  2. 每个文件都有 1000 个样本,可以使用 pandas 加载 to_pd(path) 数据帧。
  3. 由于我已经拥有一个现有的文件获取系统,因此必须按顺序加载文件
  4. 可以随机抽取每个文件中的数据。

我已经看到了 loading from within a single file
解决方案 而对于 reading a list of files,
但不是为了两者兼而有之。


我想不出只定义自定义 pytorch 数据集的方法,因为我事先没有所有路径,但是它们在运行时出现,只有在我完成最后一个后才加载一个

>

我可以为每个文件创建一个数据集,但随后我必须创建一个知道如何处理这些多个数据集的数据加载器。


在 Pytorch 中执行此操作的正确方法是什么?

如果有帮助,我也在使用 Pytorch 闪电。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。