您可以在“ CUDA”如“ hip”或“ OpenCL”以外的任何事物上加快火炬DL培训吗？

我注意到torch.device可以接受一系列参数，恰好是cpu，cuda，mkldnn，opengl，opencl ，ideep，hip，msnpu。

但是，在训练深度学习模型时，我只见过使用cuda或cpu的情况。通常，代码看起来像这样

if torch.cuda.is_available():
    device = torch.device("cuda")
else:
    device = torch.device("cpu")

我从未见过其他的使用方式，并且想知道它们是否可以使用以及如何使用。我认为带有AMD图形卡的最新MacBooks应该可以使用"hip"，但这是真的吗？培训速度是否与使用一个CUDA GPU相似？如果没有，torch.device如果无法实际使用这么多的选择，那又有什么意义呢？

如果您想使用GPU进行深度学习，则可以在CUDA和CUDA之间进行选择...

更广泛的答案，是的，这是AMD的时尚之处和一些OpenCL实施：

AMD打造的臀部-CUDA类似于与pytorch，hipCaffe，tensorflow端口的接口，但是
- AMD的hip / rocm仅在Linux上受支持-rocm不提供Windows或Mac OS支持
- 即使您想将Linux与AMD GPU + ROCM一起使用，也必须坚持使用GCN离散设备（例如rx 580，Vega 56/64或Radeon VII之类的卡），RDNA设备也不支持臀部/绳索（自发布以来已经一年了），而且看起来不会很快出现，髋关节也不支持APU。
只有一个支持OpenCL的流行框架是Caffe和Keras + PlaidML。但
- Caffe的问题：
  - Caffe似乎没有再得到积极开发，并且与今天的标准相比已经过时了
  - Caffe OpenCL实现的性能大约是nVidia的cuDNN和AMD的MIOpen提供的性能的1/2，但效果很好，我在很多情况下都使用了它。
  - 最新版本的性能甚至达到了https://github.com/BVLC/caffe/issues/6585，但至少您可以运行一个可以在后面进行一些更改的版本
  - Caffe / OpenCL仍然有效，我仍然通过AMD为OpenCL手动修复了一些错误。 https://github.com/BVLC/caffe/issues/6239
- Keras /格子-ML
  - 就访问较低级别功能的能力而言，Keras本身的框架要弱得多
  - PlaidML性能仍然是优化的NVidia的cuDNN和AMD的MIOpen-ROCM的1/2-达到优化的1/3，并且在我进行的测试中比Caffe OpenCL要慢
  - 喀拉拉邦非TF后端的未来尚不清楚，因为2.4需要TF ...

底线：