c – 为什么在重复调用clock_gettime时会看到400x异常值时间?

我试图通过使用物理时钟来测量c中某些命令的执行时间,但是我遇到了一个问题,即从计算机上的物理时钟读取测量值的过程可能需要很长时间.这是代码:
#include <string>
#include <cstdlib>
#include <iostream>
#include <math.h>
#include <time.h>

int main()
{
      int64_t mtime,mtime2,m_TSsum,m_TSssum,m_TSnum,m_TSmax;
      struct timespec t0;
      struct timespec t1;
      int i,j;
      for(j=0;j<10;j++){
      m_TSnum=0;m_TSsum=0; m_TSssum=0; m_TSmax=0;
      for( i=0; i<10000000; i++) {
            clock_gettime(CLOCK_REALTIME,&t0);
            clock_gettime(CLOCK_REALTIME,&t1);
            mtime = (t0.tv_sec * 1000000000LL + t0.tv_nsec);
            mtime2= (t1.tv_sec * 1000000000LL + t1.tv_nsec);

            m_TSsum += (mtime2-mtime);
            m_TSssum += (mtime2-mtime)*(mtime2-mtime);
            if( (mtime2-mtime)> m_TSmax ) { m_TSmax = (mtime2-mtime);}
            m_TSnum++;
      }
      std::cout << "Average "<< (double)(m_TSsum)/m_TSnum
            << " +/- " << floor(sqrt( (m_TSssum/m_TSnum  - ( m_TSsum/m_TSnum ) *( m_TSsum/m_TSnum ) ) ) )
            << " ("<< m_TSmax <<")" <<std::endl;
      }
}

接下来我在专用核心上运行它(或者系统管理员告诉我),以避免调度程序将进程移动到后台的任何问题:

$taskset -c 20 ./a.out

这是我得到的结果:

Average 18.0864 +/- 10 (17821)
Average 18.0807 +/- 8 (9116)
Average 18.0802 +/- 8 (8107)
Average 18.078 +/- 6 (7135)
Average 18.0834 +/- 9 (21240)
Average 18.0827 +/- 8 (7900)
Average 18.0822 +/- 8 (9079)
Average 18.086 +/- 8 (8840)
Average 18.0771 +/- 6 (5992)
Average 18.0894 +/- 10 (15625)

很明显,调用clock_gettime()需要大约18纳秒(在这个特定的服务器上),但我无法理解为什么“最大”时间似乎要长300到1000倍?

如果我们假设核心真正致力于这个过程并且没有被其他东西使用(可能是也可能不是;当不在专用核心上运行时,平均时间是相同的,但是sd / max稍大)还有什么可能导致这些“减速”(缺乏一个更好的名字)?

解决方法

为何选择异常值?

当您通过两次clock_gettime调用迭代1000万次时,有许多软件和硬件相关的原因可能会出现异常事件(以及非异常值变化).这些原因包括:

>上下文切换:调度程序可能决定在CPU之间迁移您的进程,即使您将进程固定到CPU,操作系统也可能会定期在您的逻辑CPU上运行其他操作.
> SMT:假设这是在具有SMT的CPU上(例如,在x86上超线程),调度程序可能会定期在兄弟核心上安排一些事情(与您的进程相同的物理核心).这可能会极大地影响代码的整体性能,因为两个线程正在竞争相同的核心资源.此外,SMT和非SMT执行之间可能存在过渡期,其中没有任何执行,因为当SMT执行开始时核心必须重新占用一些资源.
>中断:典型系统将至少每秒接收数百个中断,包括网卡,图形设备,硬件时钟,系统定时器,音频设备,IO设备,跨CPU IPI等.尝试观察-n1 cat / proc / interrupts,看看你认为是一个空闲系统的动作是怎么发生的.
>硬件暂停:CPU本身可能会因各种原因(例如电源或热量限制)或仅因为CPU is undergoing a frequency transition而周期性地停止执行指令.
> System Management Mode:完全不同于操作系统看到和处理的中断,x86 CPU有一种“隐藏中断”,允许SMM功能在CPU上执行,唯一明显的影响是周期性意外跳转用于测量真实的周期计数器时间.
>正常的性能变化:您的代码每次都不会以完全相同的方式执行.初始迭代将遭受数据和指令缓存未命中,并且对于诸如分支方向之类的事情具有未经训练的预测器.即使处于明显的“稳定状态”,您仍可能会受到超出您控制范围的性能差异.
>不同的代码路径:你可能希望你的循环每次都执行完全相同的指令1:毕竟,没有什么是真正改变的,对吧?好吧,如果你深入了解clock_gettime的内部结构,你很可能会发现一些分支在发生一些溢出时会采用不同的路径,或者在更新时从VDSO比赛中的调整因子中读取等等.

这甚至不是一个全面的列表,但至少应该让你尝试一些可能导致异常值的因素.您可以消除或减少其中一些的影响,但在x86上的现代非realtime2 OS上通常无法完全控制.

我猜

如果我不得不猜测,基于典型的~8000 ns的异常值,这对于上下文切换中断可能太小,您可能会看到由于TurboBoost比率变化导致的处理器频率缩放的影响.这是一个满口,但基本上现代的x86芯片以不同的“最大涡轮”速度运行,具体取决于活动的核心数量.例如,如果一个核心处于活动状态,我的i7-6700HQ将以3.5 GHz运行,但如果2,3或4个核心处于活动状态,则分别仅运行3.3,3.2或3.1 GHz.

这意味着即使您的进程从未中断,任何在另一个CPU上运行的工作都可能导致频率转换(例如,因为您从1个转换为2个活动核心),并且在此类转换期间CPU处于空闲状态在电压稳定的同时进行数千次循环.您可以找到一些详细的数字和测试in this answer,但结果是在测试的CPU上稳定需要大约20,000个周期,非常符合您观察到的~8000纳秒的异常值.有时您可能会在一段时间内获得两次转换,从而使影响加倍,依此类推.

缩小范围

获得分发

如果您仍想知道异常值的原因,可以采取以下步骤并观察对异常值行为的影响.

首先,您应该收集更多数据.您应该收集具有合理铲斗尺寸的直方图(例如100 ns,甚至更好的某种类型的几何铲斗尺寸,以便在更短的时间内提供更高的分辨率),而不是仅重新编码超过10,000,000次迭代.这将是一个巨大的帮助,因为你将能够准确地看到时间聚集的位置:完全有可能你有其他效果,而不是你注意到“最大”的6000 – 17000 ns异常值,他们可以有不同的原因.

直方图还可以让您了解异常值频率,您可以将其与可以测量的事物的频率相关联,以查看它们是否匹配.

现在添加直方图代码也可能为定时循环增加更多的差异,因为(例如)你将根据时间值访问不同的缓存行,但这是可管理的,特别是因为时间的记录发生在“定时区域“.

发布特定缓解措施

有了这些,您可以尝试系统地检查我上面提到的问题,看看它们是否是原因.以下是一些想法:

>超线程:只需在运行单线程基准测试时在BIOS中将其关闭,这样就可以一举消除整个问题.总的来说,我发现这也导致了细粒度基准差异的巨大减少,因此这是一个很好的第一步.
>频率调整:在Linux上,您通常可以通过将性能调控器设置为“性能”来禁用子标称频率调整.如果您使用的是intel_pstate驱动程序,则可以通过将/ sys / devices / system / cpu / intel_pstate / no_turbo设置为0来禁用超标称(也称为turbo).如果您有其他驱动程序,也可以操作turbo模式directly via MSR,或者如果其他所有驱动程序都失败,您也可以在BIOS中执行此操作.在linked question中,当涡轮增压器被禁用时,异常值基本消失,因此首先要尝试.

假设您实际上希望在生产中继续使用turbo,您可以手动将最大turbo比限制为适用于N个核心(例如,2个核心)的某个值,然后使其他CPU脱机,因此最多这个数量的核心将永远积极点.然后,无论有多少核心处于活动状态,您都可以始终以新的最大涡轮增压器运行(当然,在某些情况下,您可能仍会受到功率,电流或热量限制).
>中断:您可以搜索“中断关联”以尝试将中断移入固定核心,并查看对异常值分布的影响.您还可以计算中断的数量(例如,通过/ proc / interrupts),并查看计数足以解释异常值.如果你发现特定的定时器中断是原因,你可以探索内核提供的各种“无滴漏”(又名“NOHZ”)模式,以减少或消除它们.您也可以通过x86上的HW_INTERRUPTS.RECEIVED性能计数器直接计算它们.
>上下文切换:您可以使用实时优先级或isolcpus来防止其他进程在您的CPU上运行.请记住,上下文切换问题虽然通常被定位为主要/唯一问题,但实际上相当罕见:最多它们通常以HZ速率发生(在现代内核上通常为250 /秒) – 但在大多数情况下它很少见调度程序实际上决定在繁忙的CPU上调度另一个进程的空闲系统.如果您使基准测试循环变短,通常几乎可以完全避免上下文切换.
>与代​​码相关的性能变化:您可以使用各种分析工具(如perf)检查是否发生这种情况.您可以仔细设计数据包处理代码的核心,以避免诸如缓存未命中之类的异常事件,例如通过预先触摸缓存行,并且可以尽可能避免使用具有未知复杂性的系统调用.

虽然上述部分内容仅用于调查目的,但其中许多内容都可以帮助您确定导致暂停的原因并减轻它们.

我不知道所有问题的缓解 – 像SMM这样的东西你可能需要专门的硬件或BIOS来避免.

1好吧,除非在触发if((mtime2-mtime)> m_TSmax)条件的情况下 – 但这应该是罕见的(也许你的编译器已经使它无分支,在这种情况下只有一个执行路径).

2实际上,即使使用硬实时操作系统,您也无法获得“零差异”:某些特定于x86的因素(如SMM模式和DVFS相关的停顿)似乎是不可避免的.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


一.C语言中的static关键字 在C语言中,static可以用来修饰局部变量,全局变量以及函数。在不同的情况下static的作用不尽相同。 (1)修饰局部变量 一般情况下,对于局部变量是存放在栈区的,并且局部变量的生命周期在该语句块执行结束时便结束了。但是如果用static进行修饰的话,该变量便存
浅谈C/C++中的指针和数组(二) 前面已经讨论了指针和数组的一些区别,然而在某些情况下,指针和数组是等同的,下面讨论一下什么时候指针和数组是相同的。C语言标准对此作了说明:规则1:表达式中的数组名被编译器当做一个指向该数组第一个元素的指针; 注:下面几种情况例外 1)数组名作为sizeof的操作数
浅谈C/C++中的指针和数组(一)指针是C/C++的精华,而指针和数组又是一对欢喜冤家,很多时候我们并不能很好的区分指针和数组,对于刚毕业的计算机系的本科生很少有人能够熟练掌握指针以及数组的用法和区别。造成这种原因可能跟现在大学教学以及现在市面上流行的很多C或者C++教程有关,这些教程虽然通俗易懂,
从两个例子分析C语言的声明 在读《C专家编程》一书的第三章时,书中谈到C语言的声明问题,《C专家编程》这本书只有两百多页,却花了一章的内容去阐述这个问题,足以看出这个问题的重要性,要想透彻理解C语言的声明问题仅仅看书是远远不够的,需要平时多实践并大量阅读别人写的代码。下面借鉴《C专家编程》书中的两个
C语言文件操作解析(一)在讨论C语言文件操作之前,先了解一下与文件相关的东西。一.文本文件和二进制文件 文本文件的定义:由若干行字符构成的计算机文件,存在于计算机系统中。文本文件只能存储文件中的有效字符信息,不能存储图像、声音等信息。狭义上的二进制文件则指除开文本文件之外的文件,如图片、DOC文档。
C语言文件操作解析(三) 在前面已经讨论了文件打开操作,下面说一下文件的读写操作。文件的读写操作主要有4种,字符读写、字符串读写、块读写以及格式化读写。一.字符读写 字符读写主要使用两个函数fputc和fgetc,两个函数的原型是: int fputc(int ch,FILE *fp);若写入成功则
浅谈C语言中的位段 位段(bit-field)是以位为单位来定义结构体(或联合体)中的成员变量所占的空间。含有位段的结构体(联合体)称为位段结构。采用位段结构既能够节省空间,又方便于操作。 位段的定义格式为: type [var]:digits 其中type只能为int,unsigned int,s
C语言文件操作解析(五)之EOF解析 在C语言中,有个符号大家都应该很熟悉,那就是EOF(End of File),即文件结束符。但是很多时候对这个理解并不是很清楚,导致在写代码的时候经常出错,特别是在判断文件是否到达文件末尾时,常常出错。1.EOF是什么? 在VC中查看EOF的定义可知: #def
关于VC+ʶ.0中getline函数的一个bug 最近在调试程序时,发现getline函数在VC+ʶ.0和其他编译器上运行结果不一样,比如有如下这段程序:#include &lt;iostream&gt;#include &lt;string&gt;using namespace std;int
C/C++浮点数在内存中的存储方式 任何数据在内存中都是以二进制的形式存储的,例如一个short型数据1156,其二进制表示形式为00000100 10000100。则在Intel CPU架构的系统中,存放方式为 10000100(低地址单元) 00000100(高地址单元),因为Intel CPU
浅析C/C++中的switch/case陷阱 先看下面一段代码: 文件main.cpp#includeusing namespace std;int main(int argc, char *argv[]){ int a =0; switch(a) { case ...
浅谈C/C++中的typedef和#define 在C/C++中,我们平时写程序可能经常会用到typedef关键字和#define宏定义命令,在某些情况下使用它们会达到相同的效果,但是它们是有实质性的区别,一个是C/C++的关键字,一个是C/C++的宏定义命令,typedef用来为一个已有的数据类型
看下面一道面试题:#include&lt;stdio.h&gt;#include&lt;stdlib.h&gt;int main(void) { int a[5]={1,2,3,4,5}; int *ptr=(int *)(&amp;aʱ); printf(&quot;%d,%d&quot;,*(
联合体union 当多个数据需要共享内存或者多个数据每次只取其一时,可以利用联合体(union)。在C Programming Language 一书中对于联合体是这么描述的: 1)联合体是一个结构; 2)它的所有成员相对于基地址的偏移量都为0; 3)此结构空间要大到足够容纳最&quot;宽&quo
从一个程序的Bug解析C语言的类型转换 先看下面一段程序,这段程序摘自《C 专家编程》:#include&lt;stdio.h&gt;int array[]={23,34,12,17,204,99,16};#define TOTAL_ELEMENTS (sizeof(array)/sizeof(ar
大端和小端 嵌入式开发者应该对大端和小端很熟悉。在内存单元中数据是以字节为存储单位的,对于多字节数据,在小端模式中,低字节数据存放在低地址单元,而在大端模式中,低字节数据存放在高地址单元。比如一个定义一个short型的变量a,赋值为1,由于short型数据占2字节。在小端模式中,其存放方式为0X40
位运算和sizeof运算符 C语言中提供了一些运算符可以直接操作整数的位,称为位运算,因此位运算中的操作数都必须是整型的。位运算的效率是比较高的,而且位运算运用好的话会达到意想不到的效果。位运算主要有6种:与(&amp;),或(|),取反(~),异或(^),左移(&gt;)。1.位运算中的类型转换位
C语言文件操作解析(四)在文件操作中除了打开操作以及读写操作,还有几种比较常见的操作。下面介绍一下这些操作中涉及到的函数。一.移动位置指针的函数 rewind函数和fseek函数,这两个函数的原型是:void rewind(FILE *fp); 将位置指针移动到文件首 int fseek(FILE
结构体字节对齐 在用sizeof运算符求算某结构体所占空间时,并不是简单地将结构体中所有元素各自占的空间相加,这里涉及到内存字节对齐的问题。从理论上讲,对于任何变量的访问都可以从任何地址开始访问,但是事实上不是如此,实际上访问特定类型的变量只能在特定的地址访问,这就需要各个变量在空间上按一定的规则排
C语言文件操作解析(二)C语言中对文件进行操作必须首先打开文件,打开文件主要涉及到fopen函数。fopen函数的原型为 FILE* fopen(const char *path,const char *mode) 其中path为文件路径,mode为打开方式 1)对于文件路径,只需注意若未明确给出绝