微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

微优化c比较功能

我有一个Compare()函数,如下所示:
inline bool Compare(bool greater,int p1,int p2) {
  if (greater) return p1>=p2;
  else return p1<=p2;
}

我决定优化以避免分歧:

inline bool Compare2(bool greater,int p2) {
  bool ret[2] = {p1<=p2,p1>=p2};
  return ret[greater];
}

然后我通过这样做测试:

bool x = true;
int M = 100000;
int N = 100;

bool a[N];
int b[N];
int c[N];

for (int i=0;i<N; ++i) {
  a[i] = rand()%2;
  b[i] = rand()%128;
  c[i] = rand()%128;
}

// Timed the below loop with both Compare() and Compare2()
for (int j=0; j<M; ++j) {
  for (int i=0; i<N; ++i) {
    x ^= Compare(a[i],b[i],c[i]);
  }
}

结果:

Compare(): 3.14ns avg
Compare2(): 1.61ns avg

我会说个案封闭,避免分支FTW.但为了完整,我换了

a[i] = rand()%2;

有:

a[i] = true;

并得到〜3.14ns的完全相同的测量.大概当时没有分支,编译器实际上是重写Compare()来避免if语句.但是,为什么Compare2()更快?

不幸的是,我是汇编代码文盲,否则我本来会尝试回答这个问题.

编辑:下面是一些程序集:

_Z7Comparebii:
.LFB4:
    .cfi_startproc
    .cfi_personality 0x3,__gxx_personality_v0
    pushq   %rbp
    .cfi_def_cfa_offset 16
    movq    %rsp,%rbp
    .cfi_offset 6,-16
    .cfi_def_cfa_register 6
    movl    %edi,%eax
    movl    %esi,-8(%rbp)
    movl    %edx,-12(%rbp)
    movb    %al,-4(%rbp)
    cmpb    $0,-4(%rbp)
    je      .L2
    movl    -8(%rbp),%eax
    cmpl    -12(%rbp),%eax
    setge   %al
    jmp     .L3
.L2:
    movl    -8(%rbp),%eax
    setle   %al
.L3:
    leave
    ret
    .cfi_endproc
.LFE4:
    .size   _Z7Comparebii,.-_Z7Comparebii
    .section        .text._Z8Compare2bii,"axG",@progbits,_Z8Compare2bii,comdat
    .weak   _Z8Compare2bii
    .type   _Z8Compare2bii,@function
_Z8Compare2bii:
.LFB5:
    .cfi_startproc
    .cfi_personality 0x3,-24(%rbp)
    movl    %edx,-28(%rbp)
    movb    %al,-20(%rbp)
    movw    $0,-16(%rbp)
    movl    -24(%rbp),%eax
    cmpl    -28(%rbp),%eax
    setle   %al
    movb    %al,%eax
    setge   %al
    movb    %al,-15(%rbp)
    movzbl  -20(%rbp),%eax
    cltq
    movzbl  -16(%rbp,%rax),%eax
    leave
    ret
    .cfi_endproc
.LFE5:
    .size   _Z8Compare2bii,.-_Z8Compare2bii
    .text

现在,执行测试的实际代码可能是使用上述两个函数的内联版本,所以有可能这是错误代码分析.就这样说,我在Compare()中看到一个jmp命令,所以我认为这意味着它是分支.如果是这样,我猜这个问题就变成了:为什么当我将一个[i]从rand()%2更改为true(或者对于该事情是false)时,为什么分支预测器不能提高Compare()的性能

编辑2:我用“分支”代替“分支预测”,使我的帖子更加明智.

解决方法

我写了一个名为Celero的C库,旨在测试这样的优化和替代方案. (无耻自我推销: https://github.com/DigitalInBlue/Celero)

我使用以下代码运行您的案例:

class StackOverflowFixture : public celero::TestFixture
{
  public:
    StackOverflowFixture()
    {
    }

    inline bool NoOp(bool greater,int p2) 
    {
      return true;
    }

    inline bool Compare(bool greater,int p2) 
    {
      if(greater == true)
      {
        return p1>=p2;
      }

      return p1<=p2;
    }

    inline bool Compare2(bool greater,int p2)
    {
      bool ret[2] = {p1<=p2,p1>=p2};
      return ret[greater];
    }

    inline bool Compare3(bool greater,int p2) 
    {
      return (!greater != !(p1 <= p2)) | (p1 == p2);
    }

    inline bool Compare4(bool greater,int p2) 
    {
      return (greater ^ (p1 <= p2)) | (p1 == p2);
    }
};

BASELINE_F(StackOverflow,Baseline,StackOverflowFixture,100,5000000)
{
  celero::DoNotOptimizeAway(NoOp(rand()%2,rand(),rand()));
}

BENCHMARK_F(StackOverflow,Compare,5000000)
{
  celero::DoNotOptimizeAway(Compare(rand()%2,Compare2,5000000)
{
  celero::DoNotOptimizeAway(Compare2(rand()%2,Compare3,5000000)
{
  celero::DoNotOptimizeAway(Compare3(rand()%2,Compare4,5000000)
{
  celero::DoNotOptimizeAway(Compare4(rand()%2,rand()));
}

结果如下:

[==========]
[  CELERO  ]
[==========]
[ STAGE    ] Baselining
[==========]
[ RUN      ] StackOverflow.Baseline -- 100 samples,5000000 calls per run.
[     DONE ] StackOverflow.Baseline  (0.690499 sec) [5000000 calls in 690499 usec] [0.138100 us/call] [7241140.103027 calls/sec]
[==========]
[ STAGE    ] Benchmarking
[==========]
[ RUN      ] StackOverflow.Compare -- 100 samples,5000000 calls per run.
[     DONE ] StackOverflow.Compare  (0.782818 sec) [5000000 calls in 782818 usec] [0.156564 us/call] [6387180.672902 calls/sec]
[ BASELINE ] StackOverflow.Compare 1.133699
[ RUN      ] StackOverflow.Compare2 -- 100 samples,5000000 calls per run.
[     DONE ] StackOverflow.Compare2  (0.700767 sec) [5000000 calls in 700767 usec] [0.140153 us/call] [7135039.178500 calls/sec]
[ BASELINE ] StackOverflow.Compare2 1.014870
[ RUN      ] StackOverflow.Compare3 -- 100 samples,5000000 calls per run.
[     DONE ] StackOverflow.Compare3  (0.709471 sec) [5000000 calls in 709471 usec] [0.141894 us/call] [7047504.408214 calls/sec]
[ BASELINE ] StackOverflow.Compare3 1.027476
[ RUN      ] StackOverflow.Compare4 -- 100 samples,5000000 calls per run.
[     DONE ] StackOverflow.Compare4  (0.712940 sec) [5000000 calls in 712940 usec] [0.142588 us/call] [7013212.893091 calls/sec]
[ BASELINE ] StackOverflow.Compare4 1.032500
[==========]
[ COMPLETE ]
[==========]

考虑到这个测试,看起来Compare2是这个微型优化的最佳选择.

编辑:

Compare2装配(最好的情况):

cmp r8d,r9d
movzx   eax,dl
setle   BYTE PTR ret$[rsp]
cmp r8d,r9d
setge   BYTE PTR ret$[rsp+1]
movzx   eax,BYTE PTR ret$[rsp+rax]

比较3装配(最好的情况):

xor r11d,r11d
cmp r8d,r9d
mov r10d,r11d
setg    r10b
test    dl,dl
mov ecx,r11d
sete    cl
mov eax,r11d
cmp ecx,r10d
setne   al
cmp r8d,r9d
sete    r11b
or  eax,r11d

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


对象的传值与返回说起函数,就不免要谈谈函数的参数和返回值。一般的,我们习惯把函数看作一个处理的封装(比如黑箱),而参数和返回值一般对应着处理过程的输入和输出。这种情况下,参数和返回值都是值类型的,也就是说,函数和它的调用者的信息交流方式是用过数据的拷贝来完成,即我们习惯上称呼的“值传递”。但是自从引
从实现装饰者模式中思考C++指针和引用的选择最近在看设计模式的内容,偶然间手痒就写了一个“装饰者”模式的一个实例。该实例来源于风雪涟漪的博客,我对它做了简化。作为一个经典的设计模式,本身并没有太多要说的内容。但是在我尝试使用C++去实现这个模式的实例的时候,出现了一些看似无关紧要但是却引人深思的问题
关于vtordisp知多少?我相信不少人看到这篇文章,多半是来自于对标题中“vtordisp”的好奇。其实这个关键词也是来源于我最近查看对象模型的时候偶然发现的。我是一个喜欢深究问题根源的人(有点牛角尖吧),所以当我第一次发现vtordisp的时候,我也是很自然的把它输进google查找相关资料,但
那些陌生的C++关键字学过程序语言的人相信对关键字并不陌生。偶然间翻起了《C++ Primer》这本书,书中列举了所有C++的关键字。我认真核对了一下,竟然发现有若干个从未使用过的关键字。一时间对一个学了六年C++的自己狠狠鄙视了一番,下决心一定要把它们搞明白!图1红色字体给出的是我个人感觉一般大家
命令行下的树形打印最近在处理代码分析问题时,需要将代码的作用域按照树形结构输出。问题的原型大概是下边这个样子的。图中给了一个简化的代码片段,该代码片段包含5个作用域:全局作用域0、函数fun作用域1、if语句作用域2、else语句作用域3和函数main作用域4。代码作用域有个显著的特点就是具有树形结
虚函数与虚继承寻踪封装、继承、多态是面向对象语言的三大特性,熟悉C++的人对此应该不会有太多异议。C语言提供的struct,顶多算得上对数据的简单封装,而C++的引入把struct“升级”为class,使得面向对象的概念更加强大。继承机制解决了对象复用的问题,然而多重继承又会产生成员冲突的问题,虚继
不要被C++“自动生成”所蒙骗C++对象可以使用两种方式进行创建:构造函数和复制构造函数。假如我们定义了类A,并使用它创建对象。Aa,b;Ac=a;Ad(b);对象a和b使用编译器提供的默认构造函数A::A()创建出来,我们称这种创建方式为对象的定义(包含声明的含义)。对象c和d则是使用已有的对象,
printf背后的故事 说起编程语言,C语言大家再熟悉不过。说起最简单的代码,Helloworld更是众所周知。一条简单的printf语句便可以完成这个简单的功能,可是printf背后到底做了什么事情呢?可能很多人不曾在意,也或许你比我还要好奇!那我们就聊聊printf背后的故事。 一、printf
定义 浮点数就是小数点位置不固定的数,也就是说与定点数不一样,浮点数的小数点后的小数位数可以是任意的,根据IEEE754-1985(也叫IEEE Standard for Binary Floating-Point Arithmetic)的定义,浮点数的类型有两种:单精度类型(用4字节存储)和双精度
在《从汇编看c++的引用和指针》一文中,虽然谈到了引用,但是只是为了将两者进行比较。这里将对引用做进一步的分析。1 引用的实现方式在介绍有关引用的c++书中,很多都说引用只是其引用变量的一个别名。我自己不是很喜欢这种解释,因为觉得这种解释会给人误解,好像引用和变量就是一回事,而且,书中也没有给出,为