x86_64:为什么uint_least16_t比uint_fast16_t快(用于乘法)

关于uint_fast * _t系列类型,C标准还不太清楚.在 gcc-4.4.4 linux x86_64系统上,类型uint_fast16_t和uint_fast32_t的大小都是8个字节.但是,8字节数的乘法似乎比4字节数的乘法慢得多.以下代码演示了:
#include <stdio.h>
#include <stdint.h>
#include <inttypes.h>

int
main ()
{
  uint_least16_t p,x;
  int count;

  p = 1;
  for (count = 100000; count != 0; --count)
    for (x = 1; x != 50000; ++x)
      P*= x;

  printf("%"PRIuLEAST16,p);
  return 0;
}

在程序上运行time命令,我明白了

real 0m7.606s
user 0m7.557s
sys  0m0.019s

如果我将类型更改为uint_fast16_t(和printf修饰符),则时间变为

real 0m12.609s
user 0m12.593s
sys  0m0.009s

那么,如果stdint.h头文件将uint_fast16_t(以及uint_fast32_t)定义为4字节类型,那会不会更好?

AFAIK编译器仅定义它们自己的(u)int_(快/最小)XX_t类型的版本,如果它们尚未由系统定义.这是因为在单个系统上的所有库/二进制文件中同等定义这些类型非常重要.否则,如果不同的编译器会以不同的方式定义这些类型,那么使用CompilerA构建的库可能与使用CompilerB构建的二进制文件具有不同的uint_fast32_t类型,但是这个二进制文件仍然可以链接到库;没有正式的标准要求,系统的所有可执行代码都必须由同一个编译器构建(实际上在某些系统上,例如Windows,代码已由各种不同的编译器编译是很常见的).如果现在这个二进制文件调用库的一个函数,事情就会破裂!

所以问题是:这里真的是GCC定义uint_fast16_t,还是实际上是Linux(我的意思是这里的内核),甚至可能是标准C Lib(大多数情况下是glibc),它定义了那些类型?因为如果Linux或glibc定义了这些,那么建立在该系统上的GCC除了采用它们已经建立的任何约定之外别无选择.对于所有其他可变宽度类型也是如此:char,short,int,long,long long;所有这些类型在C标准中只有最小保证位宽(对于int,它实际上是16位,因此在int为32位的平台上,它已经比标准要求的大得多).

除此之外,我实际上想知道你的cpu /编译器/系统有什么问题.在我的系统上,64位乘法与32位乘法同样快.我修改了你的代码来测试16位,32位和64位:

#include <time.h>
#include <stdio.h>
#include <inttypes.h>

#define RUNS 100000

#define TEST(type)                                  \
    static type test ## type ()                     \
    {                                               \
        int count;                                  \
        type p,x;                                  \
                                                    \
        p = 1;                                      \
        for (count = RUNS; count != 0; count--) {   \
            for (x = 1; x != 50000; x++) {          \
                p *= x;                             \
            }                                       \
        }                                           \
        return p;                                   \
    }

TEST(uint16_t)
TEST(uint32_t)
TEST(uint64_t)

#define CLOCK_TO_SEC(clock) ((double)clockTime / CLOCKS_PER_SEC)

#define RUN_TEST(type)                             \
    {                                              \
        clock_t clockTime;                         \
        unsigned long long result;                 \
                                                   \
        clockTime = clock();                       \
        result = test ## type ();                  \
        clockTime = clock() - clockTime;           \
        printf("Test %s took %2.4f s. (%llu)\n",\
            #type,CLOCK_TO_SEC(clockTime),result \
        );                                         \
    }

int main ()
{
    RUN_TEST(uint16_t)
    RUN_TEST(uint32_t)
    RUN_TEST(uint64_t)
    return 0;
}

使用未经优化的代码(-O0),我得到:

Test uint16_t took 13.6286 s. (0)
Test uint32_t took 12.5881 s. (0)
Test uint64_t took 12.6006 s. (0)

使用优化代码(-O3),我得到:

Test uint16_t took 13.6385 s. (0)
Test uint32_t took 4.5455 s. (0)
Test uint64_t took 4.5382 s. (0)

第二个输出非常有趣. @R ..在上面的评论中写道:

On x86_64,32-bit arithmetic should never be slower than 64-bit
arithmetic,period.

第二个输出显示32/16位算术不能说同样的事情.即使我的x86 cpu本身可以执行16位运算,32位算术在32/64位cpu上也会明显变慢.与其他一些cpu不同,例如PPC,它只能执行32位算术.但是,这似乎只适用于我的cpu上的乘法,当更改代码进行加/减/除时,16和32位之间没有显着差异.

以上结果来自英特尔酷睿i7(2.66 GHz),但如果有人感兴趣,我也可以在英特尔酷睿2双核处理器(旧一代cpu)和摩托罗拉PowerPC G4上运行此基准测试.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Windows注册表操作基础代码 Windows下对注册表进行操作使用的一段基础代码Reg.h:#pragmaonce#include&lt;assert.h&gt;#include&lt;windows.h&gt;classReg{HKEYhkey;public:voidopen(HKEYroot
黑客常用WinAPI函数整理之前的博客写了很多关于Windows编程的内容,在Windows环境下的黑客必须熟练掌握底层API编程。为了使读者对黑客常用的Windows API有个更全面的了解以及方便日后使用API方法的查询,特将这些常用的API按照7大分类进行整理如下,希望对大家的学习有所帮助。一
一个简单的Windows Socket可复用框架说起网络编程,无非是建立连接,发送数据,接收数据,关闭连接。曾经学习网络编程的时候用Java写了一些小的聊天程序,Java对网络接口函数的封装还是很简单实用的,但是在Windows下网络编程使用的Socket就显得稍微有点繁琐。这里介绍一个自己封装的一
Windows文件操作基础代码 Windows下对文件进行操作使用的一段基础代码File.h,首先是File类定义:#pragmaonce#include&lt;Windows.h&gt;#include&lt;assert.h&gt;classFile{HANDLEhFile;//文件句柄publ
Winpcap基础代码 使用Winpcap进行网络数据的截获和发送都需要的一段代码:#include&lt;PCAP.H&gt;#pragmacomment(lib,&quot;wpcap.lib&quot;)//#pragmacomment(lib,&quot;ws2_32.lib&quot;)#
使用vbs脚本进行批量编码转换 最近需要使用SourceInsight查看分析在Linux系统下开发的项目代码,我们知道Linux系统中文本文件默认编码格式是UTF-8,而Windows中文系统中的默认编码格式是Gb2312。系统内的编码格式有所区别倒无伤大雅,关键的是SourceInsigh...
缓冲区溢出攻击缓冲区溢出(Buffer Overflow)是计算机安全领域内既经典而又古老的话题。随着计算机系统安全性的加强,传统的缓冲区溢出攻击方式可能变得不再奏效,相应的介绍缓冲区溢出原理的资料也变得“大众化”起来。其中看雪的《0day安全:软件漏洞分析技术》一书将缓冲区溢出攻击的原理阐述得简洁
Windows字符集的统一与转换一、字符集的历史渊源在Windows编程时经常会遇到编码转换的问题,一直以来让刚接触的人摸不着头脑。其实只要弄清Win32程序使用的字符编码方式就清楚了,图1展示了一个Win32控制台项目的属性中的字符集选项。这里有两个不同的字符集:一个是Unicode字符集,另一个
远程线程注入引出的问题一、远程线程注入基本原理远程线程注入——相信对Windows底层编程和系统安全熟悉的人并不陌生,其主要核心在于一个Windows API函数CreateRemoteThread,通过它可以在另外一个进程中注入一个线程并执行。在提供便利的同时,正是因为如此,使得系统内部出现了安全
windows系统启动项怎么打开
win10系统文件夹的只读属性去不掉怎么办
windows.old可以删掉吗?
windows的网络功能主要通过什么来实现?
win10系统以太网不见了怎么办
win10安装cad缺少net组件怎么办
win10系统鼠标移动方向相反怎么办
如何ping局域网内所有IP
windows10的系统保留分区有什么用
win10系统无法删除账户怎么办
win10系统音频服务未响应怎么办