linux perf 用于测量多线程 C 程序的缓存未命中是否准确？

linux perf 可以测量多线程程序的缓存未命中，还是只能报告主线程的结果？我在使用pthread的C程序中使用它，似乎缓存未命中数低于预期数。

是的，perf stat 是所有线程的准确总数。（除非您的 CPU 有一个勘误表，其中某个 PMU 事件计数过高或过低。这些确实发生，比实际架构状态的正确性错误更常见，因此请查看勘误表，也就是英特尔 CPU 的“规格更新”。）>

不过，请确保您确切了解每个缓存事件的重要性，例如L1d-misses 在像 Skylake 这样的现代 Intel 上计数 l1d.replacement，因此同一行上的多次未命中只是一个替换。 (How does Linux perf calculate the cache-references and cache-misses events)。

还请注意，如果内存可以跟上，硬件预取可以避免顺序访问的大量未命中。还相关：L2 instruction fetch misses much higher than L1 instruction fetch misses