在每个源缓冲区的元素上进行一些运算后,从另一个GPU内存缓冲区分配一个GPU内存缓冲区值的正确方法是什么?

如何解决在每个源缓冲区的元素上进行一些运算后,从另一个GPU内存缓冲区分配一个GPU内存缓冲区值的正确方法是什么?

我是使用Cuda工具包进行GPU编程的新手,我必须写一些代码来提供标题中提到的功能。

我想粘贴代码以显示我到底想做什么。

void CTrtModelWrapper::forward(void **bindings,unsigned height,unsigned width,short channel,ColorSpaceFmt colorFmt,PixelDataType pixelType) {

    uint16_t *devInRawBuffer_ptr = (uint16_t *) bindings[0];
    uint16_t *devOutRawBuffer_ptr = (uint16_t *) bindings[1];

    const unsigned short bit = 16;
    float *devInputBuffer_ptr = nullptr;
    float *devOutputBuffer_ptr = nullptr;

    unsigned volume = height * width * channel;
    common::cudaCheck(cudaMalloc((void **) &devInputBuffer_ptr,volume * getElementSize(nvinfer1::DataType::kFLOAT)));
    common::cudaCheck(cudaMalloc((void **) &devOutputBuffer_ptr,volume * getElementSize(nvinfer1::DataType::kFLOAT)));

    unsigned short npos = 0;
    switch (pixelType) {

        case PixelDataType::PDT_INT8: // high 8bit
            npos = bit - 8;
            break;
        case PixelDataType::PDT_INT10:  // high 10bit
            npos = bit - 10;
            break;
        default:
            break;
    }

    switch (colorFmt) {

        case CFMT_RGB: {
            for (unsigned i = 0; i < volume; ++i) {
                devInputBuffer_ptr[i] = float((devInRawBuffer_ptr[i]) >> npos);   // SEGMENTATION Fault at this line
            }
        }
            break;
        default: 
            break;
    }

    void *rtBindings[2] = {devInputBuffer_ptr,devOutputBuffer_ptr};
    // forward
    this->_forward(rtBindings);

    // convert output
    unsigned short ef_bit = bit - npos;
    switch (colorFmt) {

        case CFMT_RGB: {
            for (unsigned i = 0; i < volume; ++i) {
                devOutRawBuffer_ptr[i] = clip< uint16_t >((uint16_t) devOutputBuffer_ptr[i],(uint16_t) pow(2,ef_bit)) << npos;
            }
        }
            break;
        default: 
            break;
    }
}
  • bindings是指向数组的指针,数组中的第一个元素是设备指针,该指针指向在gpu上使用cudaMalloc分配的缓冲区,缓冲区中的每个元素都是16位整数第二个相同,用于存储输出数据。
  • heightwidthchannelcolorFmt(RGB here)pixelType(PDT_INT8,aka 8bit)分别对应于图像高度,宽度,通道号,色彩空间,存储一个像素的位值。

_forward函数需要一个指向数组的指针,该指针与bindings相似,只是缓冲区中的每个元素应为32位浮点数。

所以我使用循环进行了一些转换

for (unsigned i = 0; i < volume; ++i) {
                devInputBuffer_ptr[i] = float((devInRawBuffer_ptr[i]) >> npos);   // SEGMENTATION Fault at this line
            }

>>操作是因为实际的8位数据存储在高8位中。

SEGMENTATION FAULT发生在代码devInputBuffer_ptr[i] = float((devInRawBuffer_ptr[i]) >> npos);的这一行,并且i等于0。

我尝试将此代码分成几行:

uint16_t value = devInRawBuffer_ptr[i];
float transferd = float(value >> npos);
devInputBuffer_ptr[i] = transferd;

和SEGMENTATION FAULT发生在此行uint16_t value = devInRawBuffer_ptr[i];

我想知道这是将值分配给已分配的gpu内存缓冲区的有效方法吗?

PS:bindings中给定的缓冲区是完全可以的。它们来自调用cudaMemcpy函数之前使用forward的主机内存,但是我仍然将代码粘贴在下面

    nvinfer1::DataType type = nvinfer1::DataType::kHALF;

    HostBuffer hostInputBuffer(volume,type);
    DeviceBuffer deviceInputBuffer(volume,type);

    HostBuffer hostOutputBuffer(volume,type);
    DeviceBuffer deviceOutputBuffer(volume,type);
// HxWxC --> WxHxC
    auto *hostInputDataBuffer = static_cast<unsigned short *>(hostInputBuffer.data());
    for (unsigned w = 0; w < W; ++w) {
        for (unsigned h = 0; h < H; ++h) {
            for (unsigned c = 0; c < C; ++c) {
                hostInputDataBuffer[w * H * C + h * C + c] = (unsigned short )(*(ppm.buffer.get() + h * W * C + w * C + c));
            }
        }
    }

    auto ret = cudaMemcpy(deviceInputBuffer.data(),hostInputBuffer.data(),volume * getElementSize(type),cudaMemcpyHostToDevice);
    if (ret != 0) {
        std::cout << "CUDA failure: " << ret << std::endl;
        return EXIT_FAILURE;
    }

    void *bindings[2] = {deviceInputBuffer.data(),deviceOutputBuffer.data()};

    model->forward(bindings,H,W,C,sbsisr::ColorSpaceFmt::CFMT_RGB,sbsisr::PixelDataType::PDT_INT8);

解决方法

在CUDA中,通常不建议在主机代码中取消引用设备指针。例如,当您使用<script><html>"'&$ etc时正在创建“设备指针”:

cudaMalloc

从您发布的代码中,不可能推断出common::cudaCheck(cudaMalloc((void **) &devInputBuffer_ptr,volume * getElementSize(nvinfer1::DataType::kFLOAT))); 的原因,但是我认为它也是设备指针。

在这种情况下,要执行此操作:

devInRawBuffer_ptr

您将启动CUDA内核,如下所示:

for (unsigned i = 0; i < volume; ++i) {
            devInputBuffer_ptr[i] = float((devInRawBuffer_ptr[i]) >> npos);  
        }

(在浏览器中编码,未经测试)

如果您想了解更多有关此处发生的情况,则不妨学习CUDA。例如,您可以通过研究CUDA示例代码// put this function definition at file scope __global__ void shift_kernel(float *dst,uint16_t *src,size_t sz,unsigned short npos){ for (size_t idx = blockIdx.x*blockDim.x+threadIdx.x,idx < sz; idx += gridDim.x*blockDim.x) dst[idx] = (float)((src[idx]) >> npos); } // call it like this in your code: kernel<<<160,1024>>>(devInputBuffer_ptr,devInRawBuffer_ptr,volume,npos); 获得大多数基本概念herehere讨论了网格跨越循环。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)&gt; insert overwrite table dwd_trade_cart_add_inc &gt; select data.id, &gt; data.user_id, &gt; data.course_id, &gt; date_format(
错误1 hive (edu)&gt; insert into huanhuan values(1,&#39;haoge&#39;); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive&gt; show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 &lt;configuration&gt; &lt;property&gt; &lt;name&gt;yarn.nodemanager.res