如何解决PyOpenCL ReductionKernel仅适用于工作组
请帮助我了解如何在PyOpenCL中正确处理ReductionKernel。我有一个二维数据数组。第一维是点数。第二维是与每个点关联的属性。 由于属性的数量很大,因此假定为128。我认为它是array [number_of_working_groups,local_size]。也就是说,我在一个单独的工作组中处理每个点。在操作结束时,我需要获取每个点的点积。.但是,我还没有找到为每个工作组分别使用ReductionKernel的方法。看起来它仅适用于在输入端接收到的整个数组。 循环调用每个点似乎是非常浪费的操作。有没有办法在数组的块上使用ReductionKernel?要计算N * X数组中每N个元素的点积?还是使其像指定了本地大小的标准enqueueNDRangeKernel一样工作?谢谢!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。