微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

c – 查找数组中最大量级元素的MSB集

给定一个类型为short short的len元素数组,可以找到数组中最大绝对值元素中设置的最高有效位的位置.例如,如果数组L包含{-134,123,-890},则f(L)应返回floor(log2(abs(-890)))1.

这是我目前的功能

short MSBSetMaxMagnitude(const short *p,int len)
{
   unsigned int t = 0;

   while (len > 0)
   {
      t |= abs(*p);
      p++;
      len--;
   }
   if(t)
      return (short)(32 - __builtin_clz(t));
   else
      return 0;
}

但是,由于abs()函数需要分支,因此速度有点慢.我尝试使用没有分支的abs(),但它甚至更慢,因为它包含至少3个算术指令.所以我希望有一种有效的算法可以找到我需要的东西.

解决方法

看到您在ARM平台上工作,您可以在2条指令中使用abs的以下实现:

EORS r1,r1,ASR #32 (x = x ^ (x >> 32); carry_flag = sign_bit)
ADC r1,#0           (add the sign_bit to x)

如果在计算中可以容忍/ -1的错误,则删除第二条指令;那么,你可以用C表达它:

int abs_almost_exact(int x)
{
    return x ^ (x >> 32);
}

但更大的问题是循环.您可能会从展开中获益很多(因为每次迭代都没那么做):

do { // assuming len is even!
    int value1 = *p++;
    int value2 = *p++;
    value1 = abs(value1); // or replace abs by the hand-made version
    value2 = abs(value2);
    t |= value1;
    t |= value2;
    len--;
}
while (len > 0);

注意:由于我使用的编译器(ARM编译器)以这种方式生成更好的代码,因此我将{}替换为{}.

还请注意,从内存加载短变量(在我使用的处理器上)时,ARM有2个时钟周期的延迟.因此,最小展开因子是3(但你应该尽可能多地展开).

哦,你的处理器是否支持从内存中读取短(半字)变量?我听说过一些非常古老的处理器无法做到这一点.如果您遇到这种情况,则应该将代码更改为一次加载2个值(1个字),并使用一些比特来分隔它们.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐