DL4j 1.0.0-M1.1 在 CUDA 上运行非常慢

如何解决DL4j 1.0.0-M1.1 在 CUDA 上运行非常慢

已从 DL4J 1.0.0-beta7 更新为 DL4j 1.0.0-M1.1。后端好像用了GPU，但是学习和思考的速度却异常的慢。

它似乎已经慢了 10 倍以上。

CUDA 的 GPU 使用率约为 50%。 cpu使用率非常低。当我们开始学习时，GPU 的 CUDA 核心使用率一下子上升，所以我们可以确定 GPU 正在被使用。

我不太记得了，但我... 我用过 1.0.0 M1。我认为当时的思维速度没有太大差异。这个版本有一个bug，让我无法创建神经网络，所以我没有尝试学习。

有没有其他人遇到过同样的问题？

1.0.0 beta7 300/秒 1.0.0 M1.1 13.68/秒

1691 [main] INFO org.nd4j.linalg.factory.Nd4jBackend - Loaded [JCublasBackend] backend
4141 [main] INFO org.nd4j.nativeblas.NativeOpsHolder - Number of threads used for linear algebra: 32
4176 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Backend used: [CUDA]; OS: [Windows 10]
4176 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Cores: [12]; Memory: [26.7GB];
4176 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Blas vendor: [CUBLAS]
4185 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - ND4J CUDA build version: 11.2.142
4186 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - CUDA device 0: [GeForce GTX 1660 Ti]; cc: [7.5]; Total memory: [6442450944]
4186 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - Backend build information:
 MSVC: 192930038
STD version: 201703L
CUDA: 11.2.142
DEFAULT_ENGINE: samediff::ENGINE_CUDA
HAVE_FLATBUFFERS
5628 [main] INFO org.deeplearning4j.nn.graph.computationGraph - Starting computationGraph with WorkspaceModes set to [training: ENABLED; inference: ENABLED],cacheMode set to [NONE]

规格

Win 10 64 位
GPU 内存 6GB cpu 内存 64GB
Args -Xmx32G -Dorg.bytedeco.javacpp.maxbytes=6G -Dorg.bytedeco.javacpp.maxphysicalbytes=32G

可能有助于解决问题的信息

这是人工智能在 1.0.0 beta7 中思考时的 Windows 任务管理器。除了CUDA核心之外，左侧底部GPU 0的使用量也有所增加。

但在 1.0.0 M1.1 的情况下，CUDA 内核的使用量增加，但 GPU 0 的使用量几乎为零。