计算__m256i字中的前导零

我正在修改AVX-2指令,我正在寻找一种快速的方法来计算__m256i字(有256位)中前导零的数量.

到目前为止,我已经找到了以下方法:

// Computes the number of leading zero bits.
// Here,avx_word is of type _m256i.

if (!_mm256_testz_si256(avx_word,avx_word)) {
  uint64_t word = _mm256_extract_epi64(avx_word,0);
  if (word > 0)
    return (__builtin_clzll(word));

  word = _mm256_extract_epi64(avx_word,1);
  if (word > 0)
    return (__builtin_clzll(word) + 64);

  word = _mm256_extract_epi64(avx_word,2);
  if (word > 0)
    return (__builtin_clzll(word) + 128);

  word = _mm256_extract_epi64(avx_word,3);
  return (__builtin_clzll(word) + 192);
} else
  return 256; // word is entirely zero

但是,我发现在256位寄存器中找出确切的非零字是相当笨拙的.

有人知道是否有更优雅(或更快)的方法吗?

正如附加信息:
我实际上想要计算由逻辑AND创建的任意长向量的第一个设置位的索引,并且我将标准64位操作的性能与SSE和AVX-2代码进行比较.
这是我的整个测试代码:

#include <stdio.h>
#include <stdlib.h>
#include <immintrin.h>
#include <stdint.h>
#include <assert.h>
#include <time.h>
#include <sys/time.h>
#include <stdalign.h>

#define ALL  0xFFFFFFFF
#define NONE 0x0


#define BV_SHIFTBITS ((size_t)    6)
#define BV_MOD_WORD  ((size_t)   63)
#define BV_ONE       ((uint64_t)  1)
#define BV_ZERO      ((uint64_t)  0)
#define BV_WORDSIZE  ((uint64_t) 64)


uint64_t*
Vector_new(
    size_t num_bits) {

  assert ((num_bits % 256) == 0);
  size_t num_words = num_bits >> BV_SHIFTBITS;
  size_t mod = num_bits & BV_MOD_WORD;
  if (mod > 0)
    assert (0);
  uint64_t* words;
  posix_memalign((void**) &(words),32,sizeof(uint64_t) * num_words);
  for (size_t i = 0; i < num_words; ++i)
    words[i] = 0;
  return words;
}


void
Vector_set(
    uint64_t* vector,size_t pos) {

  const size_t word_index = pos >> BV_SHIFTBITS;
  const size_t offset     = pos & BV_MOD_WORD;
  vector[word_index] |= (BV_ONE << (BV_MOD_WORD - offset));
}


size_t
Vector_and_first_bit(
    uint64_t** vectors,const size_t num_vectors,const size_t num_words) {

  for (size_t i = 0; i < num_words; ++i) {
    uint64_t word = vectors[0][i];
    for (size_t j = 1; j < num_vectors; ++j)
      word &= vectors[j][i];
    if (word > 0)
      return (1 + i * BV_WORDSIZE + __builtin_clzll(word));
  }
  return 0;
}


size_t
Vector_and_first_bit_256(
    uint64_t** vectors,const size_t num_avx_words) {

  for (size_t i = 0; i < num_avx_words; ++i) {
    const size_t addr_offset = i << 2;
    __m256i avx_word = _mm256_load_si256(
        (__m256i const*) (vectors[0] + addr_offset));

    // AND the AVX words
    for (size_t j = 1; j < num_vectors; ++j) {
      avx_word = _mm256_and_si256(
        avx_word,_mm256_load_si256((__m256i const*) (vectors[j] + addr_offset))
      );
    }

    // test whether resulting AVX word is not zero
    if (!_mm256_testz_si256(avx_word,avx_word)) {
      uint64_t word = _mm256_extract_epi64(avx_word,0);
      const size_t shift = i << 8;
      if (word > 0)
        return (1 + shift + __builtin_clzll(word));

      word = _mm256_extract_epi64(avx_word,1);
      if (word > 0)
        return (1 + shift + __builtin_clzll(word) + 64);

      word = _mm256_extract_epi64(avx_word,2);
      if (word > 0)
        return (1 + shift + __builtin_clzll(word) + 128);

      word = _mm256_extract_epi64(avx_word,3);
      return (1 + shift + __builtin_clzll(word) + 192);
    }
  }
  return 0;
}


size_t
Vector_and_first_bit_128(
    uint64_t** vectors,const size_t num_avx_words) {

  for (size_t i = 0; i < num_avx_words; ++i) {
    const size_t addr_offset = i << 1;
    __m128i avx_word = _mm_load_si128(
        (__m128i const*) (vectors[0] + addr_offset));

    // AND the AVX words
    for (size_t j = 1; j < num_vectors; ++j) {
      avx_word = _mm_and_si128(
        avx_word,_mm_load_si128((__m128i const*) (vectors[j] + addr_offset))
      );
    }

    // test whether resulting AVX word is not zero
    if (!_mm_test_all_zeros(avx_word,avx_word)) {
      uint64_t word = _mm_extract_epi64(avx_word,0);
      if (word > 0)
        return (1 + (i << 7) + __builtin_clzll(word));

      word = _mm_extract_epi64(avx_word,1);
      return (1 + (i << 7) + __builtin_clzll(word) + 64);
    }
  }
  return 0;
}


uint64_t*
make_random_vector(
    const size_t num_bits,const size_t propability) {

  uint64_t* vector = Vector_new(num_bits);
  for (size_t i = 0; i < num_bits; ++i) {
    const int x = rand() % 10;
    if (x >= (int) propability)
      Vector_set(vector,i);
  }
  return vector;
}


size_t
millis(
    const struct timeval* end,const struct timeval* start) {

  struct timeval e = *end;
  struct timeval s = *start;
  return (1000 * (e.tv_sec - s.tv_sec) + (e.tv_usec - s.tv_usec) / 1000);
}


int
main(
    int argc,char** argv) {

  if (argc != 6)
    printf("fuck %s\n",argv[0]);

  srand(time(NULL));

  const size_t num_vectors = atoi(argv[1]);
  const size_t size = atoi(argv[2]);
  const size_t num_iterations = atoi(argv[3]);
  const size_t num_dimensions = atoi(argv[4]);
  const size_t propability = atoi(argv[5]);
  const size_t num_words = size / 64;
  const size_t num_sse_words = num_words / 2;
  const size_t num_avx_words = num_words / 4;

  assert(num_vectors > 0);
  assert(size > 0);
  assert(num_iterations > 0);
  assert(num_dimensions > 0);

  struct timeval t1;
  gettimeofday(&t1,NULL);

  uint64_t*** vectors = (uint64_t***) malloc(sizeof(uint64_t**) * num_vectors);
  for (size_t j = 0; j < num_vectors; ++j) {
    vectors[j] = (uint64_t**) malloc(sizeof(uint64_t*) * num_dimensions);
    for (size_t i = 0; i < num_dimensions; ++i)
      vectors[j][i] = make_random_vector(size,propability);
  }

  struct timeval t2;
  gettimeofday(&t2,NULL);
  printf("Creation: %zu ms\n",millis(&t2,&t1));



  size_t* results_64    = (size_t*) malloc(sizeof(size_t) * num_vectors);
  size_t* results_128   = (size_t*) malloc(sizeof(size_t) * num_vectors);
  size_t* results_256   = (size_t*) malloc(sizeof(size_t) * num_vectors);


  gettimeofday(&t1,NULL);
  for (size_t j = 0; j < num_iterations; ++j)
    for (size_t i = 0; i < num_vectors; ++i)
      results_64[i] = Vector_and_first_bit(vectors[i],num_dimensions,num_words);
  gettimeofday(&t2,NULL);
  const size_t millis_64 = millis(&t2,&t1);
  printf("64            : %zu ms\n",millis_64);


  gettimeofday(&t1,NULL);
  for (size_t j = 0; j < num_iterations; ++j)
    for (size_t i = 0; i < num_vectors; ++i)
      results_128[i] = Vector_and_first_bit_128(vectors[i],num_sse_words);
  gettimeofday(&t2,NULL);
  const size_t millis_128 = millis(&t2,&t1);
  const double factor_128 = (double) millis_64 / (double) millis_128;
  printf("128           : %zu ms (factor: %.2f)\n",millis_128,factor_128);

  gettimeofday(&t1,NULL);
  for (size_t j = 0; j < num_iterations; ++j)
    for (size_t i = 0; i < num_vectors; ++i)
      results_256[i] = Vector_and_first_bit_256(vectors[i],num_avx_words);
  gettimeofday(&t2,NULL);
  const size_t millis_256 = millis(&t2,&t1);
  const double factor_256 = (double) millis_64 / (double) millis_256;
  printf("256           : %zu ms (factor: %.2f)\n",millis_256,factor_256);


  for (size_t i = 0; i < num_vectors; ++i) {
    if (results_64[i] != results_256[i])
      printf("ERROR: %zu (64) != %zu (256) with i = %zu\n",results_64[i],results_256[i],i);
    if (results_64[i] != results_128[i])
      printf("ERROR: %zu (64) != %zu (128) with i = %zu\n",results_128[i],i);
  }


  free(results_64);
  free(results_128);
  free(results_256);

  for (size_t j = 0; j < num_vectors; ++j) {
    for (size_t i = 0; i < num_dimensions; ++i)
      free(vectors[j][i]);
    free(vectors[j]);
  }
  free(vectors);
  return 0;
}

编译:

gcc -o main main.c -O3 -Wall -Wextra -pedantic-errors -Werror -march=native -std=c99 -fno-tree-vectorize

执行:

./main 1000 8192 50000 5 9

参数意味着:1000个测试用例,长度为8192位的向量,50000,测试重复(最后两个参数是小调整).

在我的机器上进行上述调用的示例输出:

Creation: 363 ms
64            : 15000 ms
128           : 10070 ms (factor: 1.49)
256           : 6784 ms (factor: 2.21)

解决方法

如果您的输入值均匀分布,则几乎所有时间最高设置位都将位于向量的前64位(1 ^ 2 ^ 64).在这种情况下的分支将非常好地预测. @Nejc’s answer is good for that case.

但是lzcnt是解决方案的一部分的许多问题具有均匀分布的输出(或类似的),因此无分支版本具有优势.不是严格一致的,而是最高设置位通常不是最高64位的任何地方.

Wim在比较位图上使用lzcnt来寻找合适的元素是一种非常好的方法.

但是,使用存储/重新加载的向量的运行时变量索引可能比shuffle更好.存储转发延迟很低(Skylake可能需要5到7个周期),并且延迟与索引生成并行(比较/ movemask / lzcnt).在知道索引之后,movd / vpermd / movd交叉的shuffle策略需要5个周期,以将正确的元素放入整数寄存器中. (见http://agner.org/optimize/)

我认为这个版本应该是Haswell / Skylake(和Ryzen)的更好的延迟,以及更好的吞吐量. (在Ryzen上vpermd非常慢,所以它应该非常好)负载的地址计算应该具有与存储转发相似的延迟,所以它是一个折腾,其中一个实际上是关键路径.

将堆栈对齐32以避免32字节存储上的高速缓存行拆分需要额外的指令,因此如果它可以内联到多次使用它的函数中,或者对于其他一些__m256i已经需要那么多对齐,那么这是最好的.

#include <stdint.h>
#include <immintrin.h>

#ifndef _MSC_VER
#include <stdalign.h>  //MSVC is missing this?
#else
#include <intrin.h>
#pragma intrinsic(_BitScanReverse)  // https://msdn.microsoft.com/en-us/library/fbxyd7zd.aspx suggests this
#endif

// undefined result for mask=0,like BSR
uint32_t bsr_nonzero(uint32_t mask)
{
// on Intel,bsr has a minor advantage for the first step
// for AMD,BSR is slow so you should use 31-LZCNT.

   //return 31 - _lzcnt_u32(mask);
 // Intel's docs say there should be a _bit_scan_reverse(x),maybe try that with ICC

   #ifdef _MSC_VER
     unsigned long tmp;
     _BitScanReverse(&tmp,mask);
     return tmp;
   #else
     return 31 - __builtin_clz(mask);
   #endif
}

而有趣的部分:

int mm256_lzcnt_si256(__m256i vec)
{
    __m256i   nonzero_elem = _mm256_cmpeq_epi8(vec,_mm256_setzero_si256());
    unsigned  mask = ~_mm256_movemask_epi8(nonzero_elem);

    if (mask == 0)
        return 256;  // if this is rare,branching is probably good.

    alignas(32)  // gcc chooses to align elems anyway,with its clunky code
    uint8_t elems[32];
    _mm256_storeu_si256((__m256i*)elems,vec);

//    unsigned   lz_msk   = _lzcnt_u32(mask);
//    unsigned   idx = 31 - lz_msk;          // can use bsr to get the 31-x,because mask is known to be non-zero.
//  This takes the 31-x latency off the critical path,in parallel with final lzcnt
    unsigned   idx = bsr_nonzero(mask);
    unsigned   lz_msk = 31 - idx;
    unsigned   highest_nonzero_byte = elems[idx];
    return     lz_msk * 8 + _lzcnt_u32(highest_nonzero_byte) - 24;
               // lzcnt(byte)-24,because we don't want to count the leading 24 bits of padding.
}

On Godbolt with gcc7.3 -O3 -march=haswell,我们得到这样的asm来计算ymm1到esi.

vpxor   xmm0,xmm0,xmm0
        mov     esi,256
        vpcmpeqd        ymm0,ymm1,ymm0
        vpmovmskb       eax,ymm0
        xor     eax,-1                      # ~mask and set flags,unlike NOT
        je      .L35
        bsr     eax,eax
        vmovdqa YMMWORD PTR [rbp-48],ymm1   # note no dependency on anything earlier; OoO exec can run it early
        mov     ecx,31
        mov     edx,eax                     # this is redundant,gcc should just use rax later.  But it's zero-latency on HSW/SKL and Ryzen.
        sub     ecx,eax
        movzx   edx,BYTE PTR [rbp-48+rdx]   # has to wait for the index in edx
        lzcnt   edx,edx
        lea     esi,[rdx-24+rcx*8]          # lzcnt(byte) + lzcnt(vectormask) * 8
.L35:

为了找到最高的非零元素(31-lzcnt(~movemask)),我们使用bsr直接获取位(以及字节)索引,并从关键路径中减去.只要我们将掩码分支为零,这是安全的. (无分支版本需要初始化寄存器以避免越界索引).

在AMD CPU上,bsr明显慢于lzcnt.在Intel CPU上,除了output-dependency details中的微小变化外,它们的性能相同.

输入为零的bsr使目标寄存器保持不变,但GCC没有提供利用它的方法. (英特尔仅将其记录为未定义的输出,但AMD记录了Intel / AMD CPU在目标寄存器中产生旧值的实际行为).

如果输入为零,则bsr设置ZF,而不是像大多数指令那样基于输出. (这和输出依赖性可能是它在AMD上运行缓慢的原因.)BSR标志上的分支并不比使用xor eax设置的ZF上的分支特别好,-1来反转掩码,这就是gcc所做的.无论如何,英特尔做document a _BitScanReverse(&idx,mask) intrinsic返回bool,但gcc不支持它(甚至不支持x86intrin.h). GNU C内置函数不会返回一个布尔值来让你使用标志结果,但是如果检查输入C变量是非零的话,gcc可能会使用bsr的标志输出来生成智能asm.

使用dword(uint32_t)数组和vmovmskps会让第二个lzcnt使用内存源操作数,而不是需要一个movzx来对一个字节进行零扩展.但是lzcnt在Skylake之前对Intel CPU有错误的依赖性,因此编译器可能倾向于单独加载并使用lzcnt相同,无论如何都要使用相同的解决方法. (我没有检查.)

Wim的版本需要lz_msk-24,因为高位24位始终为零且具有8位掩码.但是32位掩码填充了32位寄存器.

这个版本具有8位元素和32位掩码是相反的:我们需要lzcnt所选字节,不包括寄存器中的24个前导零位.所以我们的-24移动到一个不同的位置,而不是索引数组的关键路径的一部分.

gcc选择将其作为单个3分量LEA(reg reg * scale-const)的一部分来执行,这对于吞吐量非常有用,但是在最终的lzcnt之后将其置于关键路径上. (它不是免费的,因为3组件LEA在英特尔CPU上具有额外的延迟与reg reg *规模.见Agner Fog’s instruction tables).

乘以8可以作为lea的一部分,但是乘以32将需要移位(或者被折叠成两个单独的LEA).

Intel’s optimization manual说(表2-24)即使Sandybridge也可以从256位存储转发到单字节加载而没有问题,所以我认为它在AVX2 CPU上很好,就像转发到32位负载那样4字节 – 商店的对齐块.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


一.C语言中的static关键字 在C语言中,static可以用来修饰局部变量,全局变量以及函数。在不同的情况下static的作用不尽相同。 (1)修饰局部变量 一般情况下,对于局部变量是存放在栈区的,并且局部变量的生命周期在该语句块执行结束时便结束了。但是如果用static进行修饰的话,该变量便存
浅谈C/C++中的指针和数组(二) 前面已经讨论了指针和数组的一些区别,然而在某些情况下,指针和数组是等同的,下面讨论一下什么时候指针和数组是相同的。C语言标准对此作了说明:规则1:表达式中的数组名被编译器当做一个指向该数组第一个元素的指针; 注:下面几种情况例外 1)数组名作为sizeof的操作数
浅谈C/C++中的指针和数组(一)指针是C/C++的精华,而指针和数组又是一对欢喜冤家,很多时候我们并不能很好的区分指针和数组,对于刚毕业的计算机系的本科生很少有人能够熟练掌握指针以及数组的用法和区别。造成这种原因可能跟现在大学教学以及现在市面上流行的很多C或者C++教程有关,这些教程虽然通俗易懂,
从两个例子分析C语言的声明 在读《C专家编程》一书的第三章时,书中谈到C语言的声明问题,《C专家编程》这本书只有两百多页,却花了一章的内容去阐述这个问题,足以看出这个问题的重要性,要想透彻理解C语言的声明问题仅仅看书是远远不够的,需要平时多实践并大量阅读别人写的代码。下面借鉴《C专家编程》书中的两个
C语言文件操作解析(一)在讨论C语言文件操作之前,先了解一下与文件相关的东西。一.文本文件和二进制文件 文本文件的定义:由若干行字符构成的计算机文件,存在于计算机系统中。文本文件只能存储文件中的有效字符信息,不能存储图像、声音等信息。狭义上的二进制文件则指除开文本文件之外的文件,如图片、DOC文档。
C语言文件操作解析(三) 在前面已经讨论了文件打开操作,下面说一下文件的读写操作。文件的读写操作主要有4种,字符读写、字符串读写、块读写以及格式化读写。一.字符读写 字符读写主要使用两个函数fputc和fgetc,两个函数的原型是: int fputc(int ch,FILE *fp);若写入成功则
浅谈C语言中的位段 位段(bit-field)是以位为单位来定义结构体(或联合体)中的成员变量所占的空间。含有位段的结构体(联合体)称为位段结构。采用位段结构既能够节省空间,又方便于操作。 位段的定义格式为: type [var]:digits 其中type只能为int,unsigned int,s
C语言文件操作解析(五)之EOF解析 在C语言中,有个符号大家都应该很熟悉,那就是EOF(End of File),即文件结束符。但是很多时候对这个理解并不是很清楚,导致在写代码的时候经常出错,特别是在判断文件是否到达文件末尾时,常常出错。1.EOF是什么? 在VC中查看EOF的定义可知: #def
关于VC+ʶ.0中getline函数的一个bug 最近在调试程序时,发现getline函数在VC+ʶ.0和其他编译器上运行结果不一样,比如有如下这段程序:#include &lt;iostream&gt;#include &lt;string&gt;using namespace std;int
C/C++浮点数在内存中的存储方式 任何数据在内存中都是以二进制的形式存储的,例如一个short型数据1156,其二进制表示形式为00000100 10000100。则在Intel CPU架构的系统中,存放方式为 10000100(低地址单元) 00000100(高地址单元),因为Intel CPU
浅析C/C++中的switch/case陷阱 先看下面一段代码: 文件main.cpp#includeusing namespace std;int main(int argc, char *argv[]){ int a =0; switch(a) { case ...
浅谈C/C++中的typedef和#define 在C/C++中,我们平时写程序可能经常会用到typedef关键字和#define宏定义命令,在某些情况下使用它们会达到相同的效果,但是它们是有实质性的区别,一个是C/C++的关键字,一个是C/C++的宏定义命令,typedef用来为一个已有的数据类型
看下面一道面试题:#include&lt;stdio.h&gt;#include&lt;stdlib.h&gt;int main(void) { int a[5]={1,2,3,4,5}; int *ptr=(int *)(&amp;aʱ); printf(&quot;%d,%d&quot;,*(
联合体union 当多个数据需要共享内存或者多个数据每次只取其一时,可以利用联合体(union)。在C Programming Language 一书中对于联合体是这么描述的: 1)联合体是一个结构; 2)它的所有成员相对于基地址的偏移量都为0; 3)此结构空间要大到足够容纳最&quot;宽&quo
从一个程序的Bug解析C语言的类型转换 先看下面一段程序,这段程序摘自《C 专家编程》:#include&lt;stdio.h&gt;int array[]={23,34,12,17,204,99,16};#define TOTAL_ELEMENTS (sizeof(array)/sizeof(ar
大端和小端 嵌入式开发者应该对大端和小端很熟悉。在内存单元中数据是以字节为存储单位的,对于多字节数据,在小端模式中,低字节数据存放在低地址单元,而在大端模式中,低字节数据存放在高地址单元。比如一个定义一个short型的变量a,赋值为1,由于short型数据占2字节。在小端模式中,其存放方式为0X40
位运算和sizeof运算符 C语言中提供了一些运算符可以直接操作整数的位,称为位运算,因此位运算中的操作数都必须是整型的。位运算的效率是比较高的,而且位运算运用好的话会达到意想不到的效果。位运算主要有6种:与(&amp;),或(|),取反(~),异或(^),左移(&gt;)。1.位运算中的类型转换位
C语言文件操作解析(四)在文件操作中除了打开操作以及读写操作,还有几种比较常见的操作。下面介绍一下这些操作中涉及到的函数。一.移动位置指针的函数 rewind函数和fseek函数,这两个函数的原型是:void rewind(FILE *fp); 将位置指针移动到文件首 int fseek(FILE
结构体字节对齐 在用sizeof运算符求算某结构体所占空间时,并不是简单地将结构体中所有元素各自占的空间相加,这里涉及到内存字节对齐的问题。从理论上讲,对于任何变量的访问都可以从任何地址开始访问,但是事实上不是如此,实际上访问特定类型的变量只能在特定的地址访问,这就需要各个变量在空间上按一定的规则排
C语言文件操作解析(二)C语言中对文件进行操作必须首先打开文件,打开文件主要涉及到fopen函数。fopen函数的原型为 FILE* fopen(const char *path,const char *mode) 其中path为文件路径,mode为打开方式 1)对于文件路径,只需注意若未明确给出绝