OpenCL 内核的最大细分级别

如何解决OpenCL 内核的最大细分级别

我有一个总体上的理解问题。对于这个问题,我建立了一个尽可能简单的场景。

让我们说: 我有一个由 2 个变量(xy)组成的结构。而且我在数组中彼此相邻的缓冲区中有数千个这种结构的对象。这些结构的初始值是不同的。但后来总是相同的算术运算应用于这些结构中的每一个。 (所以这对 GPU 来说非常好,因为每个 worker 只使用不同的值执行完全相同的操作,而没有分支。)此外,CPU 上根本不需要这个结构。因此,只有在整个程序结束时,所有值才应存储回 CPU。

对这些结构体的操作也是有限的!比方说,我们有 8 个可以应用的操作:

  1. x + y,将结果存入 x
  2. x + y,将结果存入 y
  3. x + x,将结果存入 x
  4. y + y,将结果存入 y
  5. x * y,将结果存储在 x 中
  6. x * y,将结果存入 y
  7. x * x,将结果存储在 x 中
  8. y * y,将结果存入 y

当为一项操作创建一个内核程序时,操作 1 的内核程序如下所示:

__kernel void operation1(__global float *structArray) 
{

    // Get the index of the current element to be processed
    int i = get_global_id(0) * 2;

    // Do the operation
    structArray[i] = structArray[i] + structArray[i + 1]; //this line will change for different operations (+,*,store to x,y)
}

以某种顺序多次执行这些内核时,例如:操作 1,2,3,1,7,5.... 然后我每次执行至少一个全局内存读取操作和一个全局内存写入操作。但理论上,如果每个 worker 都将其结构(x 和 y 值)存储在私有内存中,则执行速度会快 50 倍左右。

可以做这样的事情吗?:

__private float x;
__private float y;

__kernel void operation1(void) 
{       
    // Do the operation
    x = x + y; //this line will change for different operations (+,y)
}

为此,您首先需要存储值...例如如下所示:

__private float x;
__private float y;

__kernel void operationStore(__global float *structArray) 
{       
    int i = get_global_id(0) * 2;
    //store the x and y value from global to private memory
    x = structArray[i];
    y = structArray[i + 1];
}

因为在整个程序结束时,您需要将它们存储回全局内存,以便稍后再次将其推送到 CPU:

__private float x;
__private float y;

__kernel void operationStoreToGlobal(__global float *structArray) 
{       
    int i = get_global_id(0) * 2;
    //store the x and y value from private to global memory
    structArray[i] = x;
    structArray[i + 1] = y;
}

所以我的问题是:

  1. 在不同的内核调用期间,我能否以某种方式设法将值存储在私有内存或本地内存上?如果是这样,我只会降低程序队列的性能。
  2. 程序队列从一个内核更改为另一个内核需要多少个时钟周期?
  3. 这个内核更改时间、内核大小是否特定?如果是这样:取决于内核中的操作数量还是取决于缓冲区绑定的数量(重新绑定内容)
  4. 是否有一个经验法则,内核至少应该如何执行混合操作(按时钟周期计数)?

解决方法

  1. 这是不可能的。您无法在 privatelocal 内存空间中的“全局变量”中跨内核通信数据。您需要使用 global 内核参数来临时存储结果,从而将值临时写入显存并在下一个内核中从显存中读取。 “全局变量”允许的唯一内存空间是 constant:例如,您可以使用它创建大型查找表。这些是只读的。 constant 变量尽可能缓存在 L2 中。

  2. 可能有几千。当您完成一个内核并启动另一个内核时,您就有了一个全局同步点。内核 1 的所有实例都需要完成,然后内核 2 才能启动。

  3. 是的。它取决于全局范围、本地(工作组)范围、操作数量(尤其是 if-else 分支,因为一个工作组可能比另一个工作组花费的时间长得多),但不取决于内核参数/缓冲区绑定的数量.全局大小越大,内核占用的时间越长,工作组之间的相对时间差异越小,内核更改(同步点)的相对性能损失越小。

  4. 更好的问题:内核的全局范围应该有多大?答:非常大,比如 CUDA 核心/流处理器数量的 100 倍。

有一些技巧可以减少所需的全局同步点的数量。例如:如果一个内核可以组合来自不同内核的多个不同任务,请将两个内核压缩为一个。 示例:格子 Boltzmann 方法,两步交换与一步交换。

另一个常见的技巧是在视频内存中分配缓冲区两次。在偶数步骤中,从 A 读取并写入 B,并在奇数步骤中相反。避免在读取 A 的同时写入 A 的其他元素(引入竞争条件)。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams['font.sans-serif'] = ['SimHei'] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -> systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping("/hires") public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate<String
使用vite构建项目报错 C:\Users\ychen\work>npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)> insert overwrite table dwd_trade_cart_add_inc > select data.id, > data.user_id, > data.course_id, > date_format(
错误1 hive (edu)> insert into huanhuan values(1,'haoge'); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive> show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 <configuration> <property> <name>yarn.nodemanager.res