使用 Pytorch Lightning DDP 时记录事情的正确方法

如何解决使用 Pytorch Lightning DDP 时记录事情的正确方法

我想知道在使用 DDP 时记录指标的正确方法是什么。我注意到如果我想在 validation_epoch_end 内打印一些东西,它会在使用 2 个 GPU 时打印两次。我希望 validation_epoch_end 仅在 rank 0 上被调用并接收来自所有 GPU 的输出,但我不确定这是否正确。因此我有几个问题:

  1. validation_epoch_end(self,outputs) - 当使用 DDP 时,每个子进程是接收当前 GPU 处理的数据还是所有 GPU 处理的数据,即输入参数 outputs 是否包含整个验证集的输出,从所有 GPU?
  2. 如果 outputs 是 GPU/进程特定的,那么在使用 DDP 时计算 validation_epoch_end 中整个验证集的任何指标的正确方法是什么?

我知道我可以通过检查 self.global_rank == 0 和打印/记录仅在这种情况下解决打印问题,但是我试图更深入地了解在这种情况下我正在打印/记录的内容。

这是我的用例中的代码片段。我希望能够报告整个验证数据集的 f1、精度和召回率,我想知道在使用 DDP 时正确的做法是什么。

    def _process_epoch_outputs(self,outputs: List[Dict[str,Any]]
                               ) -> Tuple[torch.Tensor,torch.Tensor]:
        """Creates and returns tensors containing all labels and predictions

        Goes over the outputs accumulated from every batch,detaches the
        necessary tensors and stacks them together.

        Args:
            outputs (List[Dict])
        """
        all_labels = []
        all_predictions = []

        for output in outputs:
            for labels in output['labels'].detach():
                all_labels.append(labels)

            for predictions in output['predictions'].detach():
                all_predictions.append(predictions)

        all_labels = torch.stack(all_labels).long().cpu()
        all_predictions = torch.stack(all_predictions).cpu()

        return all_predictions,all_labels

    def validation_epoch_end(self,Any]]) -> None:
        """Logs f1,precision and recall on the validation set."""

        if self.global_rank == 0:
            print(f'Validation Epoch: {self.current_epoch}')

        predictions,labels = self._process_epoch_outputs(outputs)
        for i,name in enumerate(self.label_columns):

            f1,prec,recall,t = metrics.get_f1_prec_recall(predictions[:,i],labels[:,threshold=None)
            self.logger.experiment.add_scalar(f'{name}_f1/Val',f1,self.current_epoch)
            self.logger.experiment.add_scalar(f'{name}_Precision/Val',self.current_epoch)
            self.logger.experiment.add_scalar(f'{name}_Recall/Val',self.current_epoch)

            if self.global_rank == 0:
                print((f'F1: {f1},Precision: {prec},'
                       f'Recall: {recall},Threshold {t}'))

解决方法

问题

validation_epoch_end(self,outputs) - 当使用 DDP 时每 subprocess接收当前GPU处理的数据或数据 从所有 GPU 处理,即输入参数输出 包含来自所有 GPU 的整个验证集的输出?

仅从当前 GPU 处理的数据,输出不同步,只有 backward 同步(梯度在训练期间同步并分发到驻留在每个 GPU 上的模型副本)。

想象一下,所有的输出都是从 1000 GPU 传递给这个可怜的 master,它很容易给它一个 OOM

如果输出是 GPU/进程特定的,那么正确的计算方法是什么 在validation_epoch_end 中的整个验证集上的任何指标,当 使用 DDP?

根据documentation(强调我的):

使用从每个批次拆分数据的加速器进行验证时 跨 GPU,有时您可能需要在 ma​​ster 上聚合它们 GPU 用于处理(dp 或 ddp2)。

这是随附的代码(在这种情况下,validation_epoch_end 会从单个步骤接收跨多个 GPU 的累积数据,也请参阅评论):

# Done per-process (GPU)
def validation_step(self,batch,batch_idx):
    x,y = batch
    y_hat = self.model(x)
    loss = F.cross_entropy(y_hat,y)
    pred = ...
    return {'loss': loss,'pred': pred}

# Gathered data from all processes (per single step)
# Allows for accumulation so the whole data at the end of epoch
# takes less memory
def validation_step_end(self,batch_parts):
    gpu_0_prediction = batch_parts.pred[0]['pred']
    gpu_1_prediction = batch_parts.pred[1]['pred']

    # do something with both outputs
    return (batch_parts[0]['loss'] + batch_parts[1]['loss']) / 2

def validation_epoch_end(self,validation_step_outputs):
   for out in validation_step_outputs:
       # do something with preds

提示

专注于每台设备的计算和尽可能少的 GPU 间传输

  • validation_step 内(或 training_step,如果这是您想要的,这是通用的)计算 f1precisionrecall 和其他任何东西 按批次计算
  • 返回这些值(例如,作为字典)。现在,您将从每个设备返回 3 个数字,而不是 (batch,outputs)(可能更大)
  • validation_step_end 中获取这些 3 值(如果您有 2 个 GPU,实际上是 (2,3))并对它们求和/取平均值并返回 3
  • 现在 validation_epoch_end 将获得可用于累积的 (steps,3)

如果不是在 validation_epoch_end 期间操作值列表,而是将它们累积在另一个 3 值中会更好(假设您有很多验证步骤,列表可能会变得太大),但这应该足够了。

AFAIK PyTorch-Lightning 不会这样做(例如,不是添加到 list,而是直接应用一些累加器),但我可能会弄错,因此任何更正都会很棒。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams['font.sans-serif'] = ['SimHei'] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -> systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping("/hires") public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate<String
使用vite构建项目报错 C:\Users\ychen\work>npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)> insert overwrite table dwd_trade_cart_add_inc > select data.id, > data.user_id, > data.course_id, > date_format(
错误1 hive (edu)> insert into huanhuan values(1,'haoge'); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive> show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 <configuration> <property> <name>yarn.nodemanager.res