如何解决Gpu 在分割模型的多 GPU 训练中丢失
我正在尝试训练工艺 OCR 模型。我正在使用图像高达 850K 的合成文本数据集。对于每个图像,我必须创建分割groundtruth,即字符级分割和亲和力分数分割。所以这对每张图像来说都是非常繁重的预处理步骤。
因此,我不是为每个批次动态创建地面实况,而是创建包含图像的 tfrecords 并尊重地面实况分割。
因此输入图像大小为 768,768,3,该图像的真实分割为 384,384,2。
我创建了 tfrecords 分片,每个分片包含 4096 个图像及其受人尊敬的基本事实。因此,首先我尝试用 2 个分片训练模型,每个分片大小为 33GB,每个分片包含 4096 个图像及其预处理的分割基本事实。
在 keras 多 GPU 培训的帮助下,我只是在阅读 tfrecords。并从它们中批量获取图像和标签并进行训练。
但是仅仅几步之后,它就显示我的 gpu 丢失了。
但是,如果我在训练时即时生成地面实况,所有 GPU 都可以正常工作,但由于预处理繁重(生成地面实况分割),训练需要很长时间。
为了避免这种情况,我采用了这种 tfrecords 方法,其中已经存储了图像及其预处理标签。但是在训练中我面临这个 gpu 丢失问题..
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。