intrinsics - 编程之家

我可以使用 <code>_mm_set_epi64</code> 将两个 <code>uint64_t</code> 存储到一个 <code>__m128</code> 内在函数中。但是

在 MSVC 中存在内在函数 <a href="https://docs.microsoft.com/en-us/cpp/intrinsics/emul-emulu?view=msvc-160" rel="nofollow noreferre

令 <code>x</code> 为包含 8 个 32 位无符号整数的数据的 <code>__m256i</code>。我想要一个 <code>__m256</code> (

我正在为 x64 和 neon 开发 C++ 内在包装器。我希望我的函数是 constexpr。我的动机类似于 <a href="https://stacko

我想执行两个 <code>uint64_t</code> 值的多项式乘法（其中最低有效位（<code>w&1</code> 得到的那个）是最低

在 <a href="https://software.intel.com/sites/landingpage/IntrinsicsGuide" rel="nofollow noreferrer">Intel Intrinsics Guide</a> 上有一

我正在尝试从 <code>__m128i</code> 模块将 16 字节的内存加载到 <code>std::arch</code> 类型中： <pre class="lang-ru

在下面的代码中，我可以使用avx2来计算每个位置1位的数量一次单独 16 位，但在标记为 loadLow16 的行上

在普通 C++ 中，我们可以使用标准库函数 <code>malloc</code> 或 <code>new</code> 关键字动态分配浮点数组。当

在我的测试中，以下代码似乎可以正常执行： <pre><code>double* ptr = _aligned_malloc(sizeof(double) * 8, 64); __m512

这是一个函数，它接受一个 64 位整数数组并计算每个位置有多少 1 位。使用 AVX2，应该可以同时对 16 位

我试图强制用户应用程序从所有级别的缓存中刷新保存数组（由其自身创建）的所有缓存行。在阅

使用来自 PolyBlep 振荡器的内联双代码来制作合成器。我想知道是否可以使用内在替换或仅重构代码使其

给定一个 __m256i 寄存器和一个索引 i，我想从存储在寄存器中的每个值中提取一个字节并将其保存在另一

我在 Intel 内在函数指南中看到，您可以使用 <code>vpcmpb</code> 而无需立即实现相等比较的效果：<a href="http

我在 CHUWI core book 上使用 Intel® Core™ i3-6157U CPU @ 2.40GHz × 4 上的 Ubuntu 21.04。我制作了这个源代码并编译

我正在尝试将二进制文件加载到内存中。它有一个特定的编码和有限的字母表，我的意思是每两位代表

arm64 有 <code>vaddhn_high_s16</code> 内在函数。此内在函数的官方 ARM 文档是 <a href="https://developer.arm.com/a

我让标题更笼统，但我特别想要一个用于输入之间的快速 64 位平方根 (sqrt) 函数 0.5 和 1.0。（实际上，

我正在使用 AVX2 为一个项目优化一个小型数学库，但是，我偶然发现了一些轻微的不一致。 AVX2 缺