opencl - 编程之家

我编写了一个 python 代码来生成设置为 ppm 文件的 mandelbrot，现在我正在尝试实现 pyopencl 以加快进程并比

我是 OpenCL 的新手。如果我从主机端调用 clEnqueueWriteBuffer 或 clEnqueueReadBuffer ，是否会有从主机到设备以

我正在尝试将 C++ 绑定用于 OpenCL。这似乎有效；但是当我尝试抛出与 OpenCL 相关的异常（我自己）时，代

我读过这个链接 <a href="https://github.com/intel/pti-gpu" rel="nofollow noreferrer">https://github.com/intel/pti-gpu</a>

我正在构建一个 OpenCL 程序 - 使用 NVIDIA CUDA 11.2 的 OpenCL 库（及其 C++ 绑定）。成功调用 <code>cl::Program::bui

我读过：<a href="https://stackoverflow.com/questions/13803882/cuda-ptx-code-envreg32-special-registers">CUDA PTX code %envreg<32&g

在我的 <code>CMakeLists.txt</code> 中，我有： <pre><code>cmake_minimum_required(VERSION 3.9) # ... etc etc ... find_package(C

我写了一个基于OpenCL和C的奇偶排序算法，也是一个串行奇偶排序算法。但是当我尝试运行它们（例如，

我目前正在优化 OpenCL 代码以提高性能，我确定以下方法是性能瓶颈，我想用等效的 OpenCL-SIMD-Replacement

我尝试测量我的代码在 CPU 和 GPU 上的执行时间。为了测量 CPU 上的时间，我使用了 std::chrono::high_resolutio

我已经在 GPU 内存上分配了一个 OpenCL 缓冲区（有限数组）。现在我想在每个内核执行中更新该数组的特

我有一个用 C 编写的 OpenCL 程序，在同一个目录中我有 OpenCL.dll 及其相关的 .lib 和 .exp，名为 OpenCL32.lib

我正在尝试在带有 OpenCL 内核的 FPGA 板上实现我的 c++ 代码。我的虚拟机上的内核编译进行得很顺利，对

我目前正在开发应该近似 Pi 的蒙特卡罗模拟。我通过 OpenCL 进行并行化，但通过 OpenCL 获得的时间值比未

我使用 32 位浮点数和 32 位整数可互换地工作。我想要两个完全相同的内核，但一个用于整数，一个用于

在 CUDA 中，翻译单元中的主文件以后缀 <code>.cu</code> 命名，它包含的文件通常命名为 <code>.cuh</code>（即 <

我正在尝试在 OpenCL 中实现一个 bincount 操作，它分配一个输出缓冲区并使用来自 x 的索引在同一索引处

我已经按照文档中提到的说明使用二进制安装程序安装了 ArrayFire 3.8.0。在安装之前安装了所有依赖项。

假设我有一个数组 A[200][200]。如果我想将 A[0:100][0:200] 发送到 GPU 缓冲区，我只是打电话 <pre><co

我正在尝试从 C++ 程序中使用 <a href="https://www.khronos.org/registry/OpenCL/sdk/1.1/docs/man/xhtml/clEnqueueNDRangeKernel.htm