MPI_Broadcast 大量元素的最有效方法是什么？

如何解决MPI_Broadcast 大量元素的最有效方法是什么？

我正在尝试编写代码来优化高维参数空间内的大量数据 (~1Tb) 的函数。为了实现这一点，我将我的数据分配给了多个工作人员，一个中央根处理梯度下降算法，并使用 C++ MPI 实现分配计算所需的信息。

Root 进程需要将这个高维空间内的位置向量（一个 std::vector<double> 对象，具有 N >> 100,000 个元素）广播给工作人员，以及一些关于如何执行函数的基本信息（参数化作为两个整数）。

代码片段如下所示：

int circuitBreaker = 10;
int effectiveBatches = 8;
std::vector<double> TransformedPosition = std::vector<double>(VeryLargeNumber,0.0);
MPI_Bcast(&circuitBreaker,1,MPI_INT,RunningID,MPI_COMM_WORLD);
MPI_Bcast(&effectiveBatches,MPI_COMM_WORLD);
MPI_Bcast(&TransformedPosition[0],VeryLargeNumber,MPI_DOUBLE,MPI_COMM_WORLD);

worker 有对应的 MPI_Bcast 语句，一切正常。我们在循环中执行此代码，在具有 20 个内核的计算节点上，在几天内每约 3 秒调用一次 BCast。

我最近试图通过将其简化为以下内容来稍微整理此代码：

int circuitBreaker = 10;
int effectiveBatches = 8;
std::vector<double> TransformedPosition = std::vector<double>(VeryLargeNumber,0.0);    
std::vector<int> info = {circuitBreaker,effectiveBatches};
MPI_Bcast(&info[0],info.size(),MPI_COMM_WORLD);

逻辑是我可以向广播添加更多信息，而不会使代码更难阅读。

令我震惊的是，这导致速度比之前的速度降低了 5 或 6 倍。我的直觉是，与单个值相比，MPI_BCast-ing 一个向量会导致显着的开销，所以我的下一个测试是尝试将我鸣喇叭的大向量作为单个值进行广播：

    int circuitBreaker = 10;
    int effectiveBatches = 8;
    std::vector<double> TransformedPosition = std::vector<double>(VeryLargeNumber,0.0);
    MPI_Bcast(&circuitBreaker,MPI_COMM_WORLD);
    MPI_Bcast(&effectiveBatches,MPI_COMM_WORLD);
    for (int i =0 ; i < VeryLargeNumber; ++i)
    {
         MPI_Bcast(&TransformedPosition[i],1 MPI_DOUBLE,MPI_COMM_WORLD);
    }

这比我的原始代码运行得慢，但只有大约 2 倍。

我唯一能解决这个问题的方法是，计数值 > 1 的 MPI_BCast 有一个显着的开销，因此对于小计数，它的效率要高得多通过单独的 BCast 调用传递值。但是，对于较大的向量，这种开销不太重要。

这在多大程度上是正确的，将数据从我的根进程获取到工作线程的最有效的 MPI 操作集是什么？

MPI_Broadcast 大量元素的最有效方法是什么？

如何解决MPI_Broadcast 大量元素的最有效方法是什么？

相关推荐