是否有任何常见的定点内在函数？

如何解决是否有任何常见的定点内在函数？

我让标题更笼统，但我特别想要一个用于输入之间的快速 64 位平方根 (sqrt) 函数 0.5 和 1.0。（实际上，一些“SSE2 reciprocal sqrt”将是非常适合我的数值模拟，但我认为这也是很多要求。并且，为了完整起见，一个小的划分是也在使用。）

我遇到的内在函数处理浮点数据因此，指数浪费了 11 位。我知道 53 位是几乎 64 位，所以是的，CPU 制造商可能会假设人们像我一样需要在软件中设计一些 bigint 算法无论如何，所以我猜 CPU 制造商只是把他们的优先级列表。

或者，是否有更大的理由来避免定点内在函数我失踪了吗？如果我需要略好于 53 位准确度（例如，60 位准确度），我是否需要只接受一个约 10 倍减速？

解决方法

标题问题：_mm_mulhrs_epi16 (pmulhrsw) 是我认为用于带平均的 16 位定点乘法。

sqrt：x86 没有任何整数平方根支持，但 x87 fsqrt 指令确实处理带有 64 位尾数的 80 位 long double。（即 C 中的 sqrtl()）。但一次只有一个（标量），吞吐量甚至比 sqrtpd 还要差。即使 fild / fistp 可以从/到 int64_t 进行舍入到最近的转换，如果可以获取一个 C 编译器来发出这些。

例如在 GNU/Linux（或其他非 Windows 平台，其中 long double 是 80 位 x87 类型）上，我认为这可能是可行的：

#include <stdint.h>
#include <math.h>

int64_t fixed_point_sqrt(int64_t a) {
    return lrintl(sqrtl(a) * (1LL<<32));  // rescale for your fixed point range
}

(lrintl 使用当前默认舍入模式进行 long double -> long 转换，即舍入到最接近。否则只是强制转换，您可以获得 SSE3 fisttp 截断，或者没有 SSE3 a舍入模式缓慢更改为截断和返回。）

使用 GCC 和 clang（针对 Linux），您可以获得（在 Godbolt 上）

# gcc and clang -O3 -fno-math-errno   are both similar; this is clang:
fixed_point_sqrt(long):                  # @fixed_point_sqrt(long)
        mov     qword ptr [rsp - 16],rdi
        fild    qword ptr [rsp - 16]         # convert int64 -> 80-bit x87
        fsqrt
        fmul    dword ptr [rip + .LCPI1_0]   # float 4.2949673E+9 is exactly representable
        fistp   qword ptr [rsp - 8]          # convert back with roundinging
        mov     rax,qword ptr [rsp - 8]
        ret

实际上，如果 80 位 FP 值总是一个整数，那么 fisttp 与 fistp 可能无关紧要；不确定范围如何工作。

定点的正常用例是用于您不想在指数字段上浪费空间的窄元素；您的动态范围非常有限（最大值仅为最小值的两倍）确实使 FP 值的指数字段变得多余，但现代 x86 CPU 在 SIMD-FP 吞吐量上花费了大量晶体管，因此这仍然是高性能的好选择。

如果您关心最大精度，请注意 64 位整数的整数平方根只有 32 个有效位。但是对于定点，0.5 和 1.0 之间的数字的平方根在 0.75 和 1.0 之间，因此您只会损失 1 位精度（MSB 始终设置在结果中）。因此重新缩放使其与纯整数 sqrt 不同。

如果您需要更多的尾数位，您可以使用 double-double (https://en.wikipedia.org/wiki/Quadruple-precision_floating-point_format#Double-double_arithmetic) 对 double,double-double-arithmetic。 Multiplying 和 adding 这样的数字可以通过 SIMD 实现，但 IDK 实现 sqrt 的效率有多高。

是否有任何常见的定点内在函数？

如何解决是否有任何常见的定点内在函数？

解决方法

相关推荐