技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

如何为分散在磁盘和每个文件中的数据正确定义 Pytorch 数据集和数据加载器？

时间：2022-08-07分类：编程问答

如何解决如何为分散在磁盘和每个文件中的数据正确定义 Pytorch 数据集和数据加载器？

我将数据分散在多个文件中，例如 f1、f2、f3，其路径为 p1、p2、p3。
每个文件都有 1000 个样本，可以使用 pandas 加载 to_pd(path) 数据帧。
由于我已经拥有一个现有的文件获取系统，因此必须按顺序加载文件。
可以随机抽取每个文件中的数据。

我已经看到了 loading from within a single file
的解决方案而对于 reading a list of files,
但不是为了两者兼而有之。

我想不出只定义自定义 pytorch 数据集的方法，因为我事先没有所有路径，但是它们在运行时出现，只有在我完成最后一个后才加载一个。

>

我可以为每个文件创建一个数据集，但随后我必须创建一个知道如何处理这些多个数据集的数据加载器。

在 Pytorch 中执行此操作的正确方法是什么？

如果有帮助，我也在使用 Pytorch 闪电。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

小编推荐

苹果市值2025年有望达4万亿美元