OpenGL 和 OpenCL 之间的内存模型比较以及繁重数学计算的性能

如何解决OpenGL 和 OpenCL 之间的内存模型比较以及繁重数学计算的性能

我正在通读 OpenGL 和 OpenCL 规范，以便找到关于内存模型以及它们之间究竟如何对应的一些信息。

我知道 OpenGL 和 OpenCL 使用基本相同的内存模型。然而，我很难理解，鉴于命名不是一对一映射（至少在我看来是这样），究竟可以映射到两者之间的内容（就术语而言）。>

任何参考将不胜感激。

假设我们拥有与 OpenCL 和 OpenGL 设备相同的 GPU，具体问题是：

例如，VBO 如何实际映射到 OpenCL？ VBO 是否本质上对应于 OpenCL 术语中的一块全局内存？
OpenGL 纹理对象呢？我的理解是，这与 OpenCL 中的图像对象完全对应，并且它们都映射到纹理内存。
共享存储缓冲区对象（特别是在计算着色器的上下文中）呢？这对应于什么？

此外，即使在这个站点上，我也发现很少有人争论哪一种性能更好（在 OpenCL 和 OpenGL 之间）。在我看来，仅当问题的性质很好地映射到与图形相关的事物时，OpenGL Compute Shaders 例如应该优先于 OpenCL 内核，如果您有一些不一定与图形相关的大量数字（例如重模拟为例）。

我有点难以理解的是，鉴于内存模型和资源本质上是相同的，为什么会出现这种情况。除了实验之外，我想知道证明差异的实际差异是什么。具体参考计算着色器，我知道它们允许实现您可以在 OpenCL 中使用 OpenGL 实现的任何算法，那么为什么会有性能差异？

我正在考虑的问题是基于 3 级 Blas 例程（例如 GEMM 或 GEMV）的一些相对繁重的优化。

OpenGL 和 OpenCL 对这类问题的扩展能力如何？

我之所以这么问是因为我很难找到可能回答这个问题的相对较新的信息和基准。

解决方法

例如 VBO 如何实际映射到 OpenCL

我对 OpenGL 的经验有限，但据我所知，许多 OpenGL 对象根本不映射到 OpenCL 对象。 OpenGL 通常在更高的抽象级别上工作，它在后台为您做很多事情。 OpenCL 明显更简单，更底层（这也可以解释为什么 OpenCL 有时会更快）。有大块的内存（cl_mem）、代码（cl_kernel），你启动与内存一起工作的内核——差不多就是这样。没有像 OpenGL 那样复杂的内部状态机。

具体参考计算着色器，我知道它们允许实现您可以使用 OpenGL 在 OpenCL 中实现的任何算法

实际上，我认为这可能是不正确的。 OpenCL 允许您使用指针执行几乎所有您可以在 C 中执行的操作（算术、重新解释转换等），而 GLSL 则受到更多限制（AFAIK）。

证明差异的实际差异是什么

一个巨大的区别（再次是 AFAIK）是内置的数学函数库（如 sin、cos 等）。 OpenGL 也有它们，但在 OpenCL 中，它们通过标准保证了精度。这对科学应用程序产生了巨大的影响，OTOH 这意味着 OpenCL 内核可能会慢得多（因为在整个输入范围内高精度的 sin() 实现比一些蹩脚的实现要多得多，这些实现只是给你合理精确的值一些非常有限的输入范围）。

OpenGL 和 OpenCL 之间的内存模型比较以及繁重数学计算的性能

如何解决OpenGL 和 OpenCL 之间的内存模型比较以及繁重数学计算的性能

解决方法

相关推荐