将 Pytorch 数据集转换为从每个类中至少采样一个点的加载器/采样器的有效方法

如何解决将 Pytorch 数据集转换为从每个类中至少采样一个点的加载器/采样器的有效方法

我正在考虑一种快速有效的方法，将 Pytorch 数据集转换为采样器，该采样器至少对每个类中的一个进行采样。到目前为止，我已经按顺序遍历了 Pytorch 数据集，并为每个类创建了一个 2D 张量（Batch x Feature），然后返回每个张量的随机 idxes，但这非常慢，并且没有利用数据加载器或采样器。我正在想办法将其设置为加载器或采样器以提高速度。

目标：
因此，每个采样的批次应该至少有一个代表每个类，并且可以保证提供给采样器的批次大小将远大于类的数量（批次大小至少是类的 2 倍）。理想情况下，每个批次不应该进行替换采样，但可以在不同批次中对一个点进行采样。