用于语义分割任务的大图像-Pytorch内存不足

我有ImageNet的大图像（256,256个），我想训练语义分割任务。因此，输出将为(B,Classes,C,H,W)。我有256节课。对于pytorch定义的CrossEntropyLoss或NLL，我需要使用dtype long Docs。

但是，类型为long的（256,3,256,256）张量仅超过0.4GB的内存，因此无法在GPU中针对超过4的批处理大小进行训练（考虑到该模型需要大量内存以及反向传播算法）。 / p>

我正在使用具有16GB内存的Google Cloud T4。 我可以针对这个问题采取任何技巧来训练更大的批量吗？对于我可以训练的批量大小，需要几个月的时间才能完成训练。