为什么在混合器项目中与在CPU中相比,在GPU中执行方法的时间更多?

如何解决为什么在混合器项目中与在CPU中相比,在GPU中执行方法的时间更多?

我正在运行Hello World的Hybridizer-basic-samples示例,但是在GPU中执行所需的时间比cpu多。

    [EntryPoint("run")]
    public static void Run(int N,double[] a,double[] b)
    {
        Parallel.For(0,N,i => { a[i] += b[i]; });
    }

    static void Main(string[] args)
    {
        int N = 1024 * 1024 * 16;
        double[] acuda = new double[N];
        double[] adotnet = new double[N];
        double[] b = new double[N];
        Random rand = new Random();
        for (int i = 0; i < N; ++i)
        {
            acuda[i] = rand.NextDouble();
            adotnet[i] = acuda[i];
            b[i] = rand.NextDouble();
        }

        cudaDeviceProp prop;
        cuda.GetDeviceProperties(out prop,0);
        HybRunner runner = HybRunner.Cuda().Setdistrib(prop.multiProcessorCount * 16,128);
        dynamic wrapped = runner.Wrap(new Program());

        // run the method on GPU
        var watch = System.Diagnostics.Stopwatch.StartNew();
        wrapped.Run(N,acuda,b);
        watch.Stop();
        Console.WriteLine($"Execution Time: {watch.ElapsedMilliseconds} ms");

        // run .Net method
        var watch2 = System.Diagnostics.Stopwatch.StartNew();
        Run(N,adotnet,b);
        watch2.Stop();
        Console.WriteLine($"Execution Time: {watch2.ElapsedMilliseconds} ms");
    }

当我运行程序时,GPU中Run()的执行时间总是比.Net方法更长。像GPU一样执行需要818毫秒,而cpu则需要89毫秒。原因?

解决方法

正如@InBetween所提到的,您可能正在测量编译器开销。进行预热过程以使所有代码都首先编译是一种很好的做法。或使用类似benchmarking.net的方法为您完成任务。

另一个可能的原因是开销。在GPU上运行时,系统需要将输入数据复制到GPU内存,然后再次将结果复制回去。可能还会涉及其他费用。将数字相加是非常简单的操作,因此处理器可能会以最大理论速度运行。

让我们做一些后面的信封计算。假设CPU每个时钟可以执行4次加法操作(即AVX256可以执行的操作)。每双4 * 8个字节=每个时钟32个字节,以及每秒4 * 10 ^ 9个时钟。这样可以提供128 GB / s的处理速度。这显着高于16 GB / s的PCIe 3 x16带宽。由于其他限制,您可能无法达到此速度,但它表明限制因素可能不是处理器本身,因此使用GPU可能无法改善性能。

使用更复杂的算法为每个数据项执行更多处理时,GPU处理应表现出更好的收益。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?