如何解决API Rest 使用 GPU 加载多个模型,但不是同时加载
我正在创建一个 API Rest(使用 Flask),它对几个拥抱面变换器模型(使用管道和自定义微调模型)进行推理。
问题是所有模型都不能同时适应 GPU。
有没有办法将模型加载到 GPU 中,使用该模型进行推理并将其移动到 cpu,然后将下一个模型加载到 GPU 进行推理,然后再加载到 cpu。
我试过每次模型收到调用时将模型从“cuda”移到“cpu”,问题是它在运行模型后不会删除预测变量,而是保持内存在使用中当我加载其他模型 cuda 内存错误被抛出!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。