程序卡住,同时向从站 MPI 发送数据

如何解决程序卡住,同时向从站 MPI 发送数据

我正在用 c 语言开发一个应用程序,其中用户想要在 2 维数组中找到特定模式的 2 位数字。

例如,有一个 10x10 的数组,其中包含随机的个位数,用户想要找到 1,0。我们的程序将搜索1,当它找到时,我们的程序将在所有方向(顶部、底部、侧面、对角线和反对角线)搜索0到深度1。简单地说,我们可以说它将在大小为 3x3 的子矩阵中在 1 的边上搜索零。函数 search_number() 正在执行搜索第二个数字的工作。

我已经为它实现了顺序代码,并且正在尝试将其转换为 MPI。

我是 MPI 的超级菜鸟,并且是第一次练习。

这是我对 MPI 的尝试。

#include <mpi.h>
#include <stdio.h>
#include <stdlib.h>
#include <time.h>

#define N   255
#define BS  N/2

MPI_Status status;
int search_number(int arr[N][N],int row,int col,int digit_2){
    int count=0;
    for (int i=row-1;i<=row+1;i++){     //from -row to +row = 3 indexes for rows
        for(int j=col-1;j<=col+1;j++){  //from -col to +col = 3 indexes for cols
            // skip for [row,col] and -1 for both [i,j] as well as till maximum size
            if(i<0 || j<0 || i>=N || j>=N || i==row && j==col) continue;
            if(arr[i][j] == digit_2){ //if second number is found,increase the counter
                count++;
            }
        }
    }
    return count;
}

int main(int argc,char **argv)
{
    int nproc,taskId,source,i,j,k,positionX,positionY;
    int sum=0;
    MPI_Datatype type;
    int a[N][N];

    MPI_Init(&argc,&argv);
    MPI_Comm_rank(MPI_COMM_WORLD,&taskId);
    MPI_Comm_size(MPI_COMM_WORLD,&nproc);

    MPI_Type_vector(N,BS,N,MPI_INT,&type);
    MPI_Type_commit(&type);

    //root
    if (taskId == 0) {
        srand( time(NULL) );
        //Generate two NxN matrix
        for (i=0; i<N; i++) {
            for (j=0; j<N; j++) {
                a[i][j]= rand()%10;
            }
        }

        printf("Passing 1st chunk:\n");
        // first chunk
        MPI_Send(&a[0][0],BS*N,MPI_COMM_WORLD);
        MPI_Send(&a[0][0],1,MPI_COMM_WORLD);
        printf("Passing 2nd Chunk:\n");
        //second chunk
        MPI_Send(&a[BS][0],2,MPI_COMM_WORLD);
        MPI_Send(&a[BS][0],3,MPI_COMM_WORLD);
    }

    //workers
    source = 0;
    MPI_Recv(&a,N*N,MPI_COMM_WORLD,&status);

    for(int i=0;i<N;i++){
        for(int j=0;j<N;j++){
            if (a[i][j]==1) { // if found 1,pass its index i,j to search_number() function
                sum+= search_number(a,0);  // funtion will return the count of 0's shared with 1
            }
        }
    }
    //Send result to root
    MPI_Send(&sum,4,MPI_COMM_WORLD);

    //root receives results
    if(taskId == 0)
    {
        printf("Count: %d\n",sum);
        // printMatrix(resultFinal);
    }

    MPI_Finalize();
}

我面临的问题是,如果我在顶部传递 set Passing Chunk 1,我的程序会卡在 N>255 行。但工作到 0 to 255。你能指出我的错误吗?

解决方法

我面临的问题是我的程序卡在 Passing Chunk 1 行 如果我通过顶部设置 N>255。但工作到 0 到 255。

正如 @Gilles Gouaillardet 已经在评论中指出的那样,并且在 this answer 上有更详细的说明:

MPI_Send() 被允许阻塞直到一个匹配的接收被发布(并且 这通常发生在消息“大”时)...... 所需的匹配接收永远不会被发布。

一个典型的解决方法是在等级 0 上发出 MPI_Irecv(...,src = 0,...) 在 MPI_Send() 之前(和 MPI_Wait() 之后),或处理 0 -> 0 与 MPI_Sendrecv() 通信。

此外,您的并行化似乎是错误的,即:

MPI_Send(&a[0][0],BS*N,MPI_INT,MPI_COMM_WORLD);
MPI_Send(&a[0][0],1,MPI_COMM_WORLD);

向进程 0 和 1 发送相同的工作负载,并且:

MPI_Send(&a[BS][0],2,MPI_COMM_WORLD);
MPI_Send(&a[BS][0],3,MPI_COMM_WORLD);

与过程 2 和 3 相同的问题。

您应该尝试使用 stencil alike 方法,其中每个进程只共享它们之间的边界。例如,对于 4x4 矩阵和 4 个进程,可能的分布是:

  • process 0 适用于第 0、1 和 2 行;
  • process 1 适用于第 2、3 和 4 行;
  • process 2 适用于第 4、5、6 行;
  • process 3 适用于第 7、8、9 行;

目前,您向每个进程发送 BS*N 元素,但在:

MPI_Recv(&a,N*N,source,taskId,MPI_COMM_WORLD,&status);

您指定您希望收到 N*N

此外:

   for(int i=0;i<N;i++){
        for(int j=0;j<N;j++){
            if (a[i][j]==1) { // if found 1,pass its index i,j to search_number() function
                sum+= search_number(a,i,j,0);  // funtion will return the count of 0's shared with 1
            }
        }
    }

进程正在处理他们没有收到的矩阵 a 的位置,自然不应该是这种情况。

终于代替了

//Send result to root
MPI_Send(&sum,BS,4,MPI_COMM_WORLD);

您实际上应该使用 MPI_Reduce

将所有进程的值减少到一个值

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)&gt; insert overwrite table dwd_trade_cart_add_inc &gt; select data.id, &gt; data.user_id, &gt; data.course_id, &gt; date_format(
错误1 hive (edu)&gt; insert into huanhuan values(1,&#39;haoge&#39;); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive&gt; show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 &lt;configuration&gt; &lt;property&gt; &lt;name&gt;yarn.nodemanager.res