avx - 编程之家

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

avxavx专题提供avx的最新资讯内容，帮你更好的了解avx。

AVX 和 AVX2 之间的差异

下面是 AVX2 中矩阵乘法的实现。我使用的机器只支持 AVX，所以我试图用 AVX 实现相同的配置。但是

作者：佚名时间：2022-04-27

使用AVX指令会禁用exp优化吗？

使用AVX指令会禁用exp（）优化吗？ - | 我正在使用AVX内部函数在VC ++中编写前馈网络。我正在通过C＃中的PInvoke调用此代码。当调用一个计算包括函数exp（）的大循环的函数时，对于160M的循环大小，我的性能约为1000ms。一旦我调用了使用AVX内部函数的任何函数，然后又使用e...

作者：佚名时间：2022-04-26

决策森林的快速评估

我有一些决策树（1000-3000）需要尽快评估。它们都访问同一组双精度值。根本没有分类值（所以所有值

作者：佚名时间：2022-04-25

内存 32 位对齐约束对 AVX 意味着什么？

<a href="https://software.intel.com/sites/landingpage/IntrinsicsGuide/#text=_mm256_load_ps&expand=3333" rel="nofollow noreferrer">_mm

作者：佚名时间：2022-04-24

在 SSE 和 AVX 中没有插入和提取浮点数/双精度数？ float 到 __m256

我刚刚注意到没有 <code>_mm256_insert_pd()</code>/<code>_mm256_insert_ps()</code>/<code>_mm_insert_pd()</code>，<a href="https://

作者：佚名时间：2022-04-24

AVX 寄存器和两个 SSE 寄存器的高效拆分/连接

将一个 AVX (AVX2) 寄存器拆分为两个 SSE (SSE2) 寄存器并向后 - 连接（连接）两个 SSE 寄存器以创建一个 AVX

作者：佚名时间：2022-04-24

在 SSE/AVX 中高效计算 X 的能力

我正在寻找最高效的方法来计算 SSE-128/AVX-256/AVX-512 寄存器（128 位和 256 位和 512 位）中所有浮点 <code>X</c

作者：佚名时间：2022-04-24

使用最少的指令将 4 个单精度浮点数加载并复制到打包的 __m256 变量中

我有一个包含 A、B、C、D 4 个浮点数的浮点数组，我希望将它们加载到一个 <code>Selector</code> 变量中，例

作者：佚名时间：2022-04-23

是否有 AVX2 指令和内在指令可以将 16 位值广播 16 次加载到 __m256i 中？

在下面的代码中，我可以使用avx2来计算每个位置1位的数量一次单独 16 位，但在标记为 loadLow16 的行上

作者：佚名时间：2022-04-23

_mm256_rem_epu64 未在 GCC 10.3.0 中找到

我尝试使用 <code>uint64_t</code> 指令重写以下 <code>AVX-512</code> 2x2 矩阵乘法，但 <code>GCC 10.3</code> 未找到 <cod

作者：佚名时间：2022-04-21

如何从 __m256i AVX2 寄存器中提取一个字节到另一个 __m256i 寄存器中？

给定一个 __m256i 寄存器和一个索引 i，我想从存储在寄存器中的每个值中提取一个字节并将其保存在另一

作者：佚名时间：2022-04-21

创建添加两个 XMM 寄存器的过程时返回什么寄存器

我在 C++ 上调用 ASM 函数，我希望能够返回 YMM2 存储值，我知道在过程中返回的寄存器是 RAX，我怎样才能

作者：佚名时间：2022-12-05

xmm 和 ymm 寄存器x86-64有关系吗？

我在指令 <code>vmovdqu (%rsi),%xmm2</code> 处有一个程序的核心转储（商业、封闭源代码，不是我写的），我想

作者：佚名时间：2022-07-22

运行任何英特尔AVX函数后,数学函数需要更多周期

参见英文答案 > Using AVX instructions disables exp() optimization? 1个我注意到运行任何英特尔AVX功能后,数学函数(如ceil,round,...)需要更多的CPU周期.请参阅以下示例：#include <stdio.h&

作者：佚名时间：2019-05-08

c – 英特尔AVX内在函数：任何兼容性库？

是否有任何英特尔AVX内在库？我正在寻找类似’sse2mmx.h’标题的东西,如果SSE2整数内在函数在编译时不可用,它会回退到MMX内在函数.因此,如果我有类似AVX的库,我可以为新硬件编写优化代码,如果AVX扩展不可用,它将具有几乎最佳速度.谷歌搜索到目前为止没有多大帮助:( 英特尔提供了 AVX emulation header.我没有尝试过,但引用链接的文章“AVX仿真头文件使用内在函数来

作者：佚名时间：2019-08-18

c – 对于具有所有相同组件的SSE向量,可以动态生成还是预先计算？

当我需要执行一个向量操作,其操作数只是一个广播到每个组件的一个浮点数时,我应该预先计算__m256或__m128,并在需要时加载它,或者每次我使用_mm_set1_ps将浮点数广播到寄存器需要矢量？我一直在预先计算非常重要和高度使用的向量,并在运行中生成那些不太重要的向量.但我真的通过预先计算获得了任何速度吗？这值得吗？ _mm_set1_ps是用单个指令实现的吗？这可能会回答我的问题. 当然,

作者：佚名时间：2019-08-20

c – 在MSVC中自动生成FMA指令

MSVC多年来支持AVX / AVX2指令,根据 this msdn blog post,它可以自动生成 fused-multiply-add (FMA)指令. 但是以下两个函数都没有编译为FMA指令： float func1(float x, float y, float z) { return x * y + z; } float func2(float x, float y, fl

作者：佚名时间：2019-10-09

c- AVX中的矩阵向量乘法不是比SSE中的比例快

我使用以下方法在SSE和AVX中编写矩阵向量乘法： for(size_t i=0;i<M;i++) { size_t index = i*N; __m128 a, x, r1; __m128 sum = _mm_setzero_ps(); for(size_t j=0;j<N;j+=4,index+=4) { a = _mm_load_ps(&A[

作者：佚名时间：2019-10-24

c – SSE/AVX寄存器的非零字节索引

如果SSE / AVX寄存器的值是所有字节都是0或1,有没有办法有效地获得所有非零元素的索引？例如,如果xmm值是 | r0 = 0 | r1 = 1 | r2 = 0 | r3 = 1 | r4 = 0 | r5 = 1 | r6 = 0 | … | r14 = 0 | r15 = 1 | 结果应该是(1,3,5,…,15).结果应放在另一个_m128i变量或char [16]数组中. 如果有

作者：佚名时间：2019-11-14

c – AVX中的水平XOR

有没有办法水平异步AVX寄存器 – 具体来说,对256位寄存器的四个64位组件进行异或？目标是获得AVX寄存器的所有4个64位组件的XOR.它基本上与水平加法(_mm256_hadd_epi32())做同样的事情,除了我想要XOR而不是ADD. 标量代码是： inline uint64_t HorizontalXor(__m256i t) { return t.m256i_u64[0] ^

作者：佚名时间：2019-12-12

上一页 1 2 3 4 567 下一页

小编推荐

苹果市值2025年有望达4万亿美元