为什么现在大多数缓存线大小设计为 64 字节而不是 32/128 字节？

如何解决为什么现在大多数缓存线大小设计为 64 字节而不是 32/128 字节？

我在 linux 中发现，它显示我的 cpu 的缓存线大小为 64 字节，我意识到存在 16/32/128 字节，但现在大多数 cpu 都设计为 64 字节缓存线大小。为什么不更大或更小？

解决方法

这是一种权衡。更宽的缓存效率更高（就给定缓存大小的面积/功率而言），但会导致随机（非顺序/跨步）访问的内存流量更多，并行缓存之间的错误共享争用更多。

如果您的内存访问模式只需要每个缓存行中的几个字节（例如，沿着广泛分布在内存中的链表进行迭代），则每次访问都需要将整行拉入缓存中缓存。因此，将行大小加倍会使内存流量加倍。
如果不同的 CPU，每个都有自己的缓存，正在访问同一缓存行上的内存，则该行将不得不在缓存之间来回“弹跳”。避免这种情况意味着在对象之间放置更多的填充。

在这两种情况下，都可以通过调整软件来避免这些问题，使其以缓存行大小倍数的块为单位。缓存线越大，工作越多。

正如 Chris Dodd's answer 指出的，缓存行的大小涉及权衡。

较大的缓存线减少了每个数据字节的标签位数，提供预取，并以过度预取（浪费带宽和缓存容量）、错误共享为代价促进更高的带宽（特别是在内存和 L1 接口处），更高的未命中延迟（尤其是没有关键词优先/提前重启）和更高的冲突未命中（对于较小的缓存，使用较少的集合，比关联性更多的访问将映射到特定集合的可能性增加）。（通过保证在更大的地址范围和字节数内命中缓存，更大的缓存行还可以提供更高的性能可预测性。）

现代系统不会从这种预取中明显受益；可配置的静态预取逻辑将提供相同的行为，而动态预取可以利用可变资源可用性（例如缓存容量和内存通道占用率）和实用性，并提供更灵活的预取（例如非单位步幅）。

对于使用 SRAM 存储数据和标签的现代缓存来说，就面积而言，标签开销不是那么重要。（IBM 的 Power 和 zArchitecture 实施将 eDRAM 用于外部缓存数据存储，将 SRAM 用于标签，这使标签相对于数据的面积成本增加了一倍以上。）但是，访问延迟和访问能量受标签阵列大小的影响。对于 L1 缓存，路径预测对于较大的缓存线更有效，因为对于给定的缓存容量，缓存线较少，而且空间局部性往往适用于甚至超出合理的缓存线大小；只需检查一组标签以获得更广泛或更多的访问次数就可以降低更高带宽的成本（这在利用空间局部性并牺牲带宽延迟的 GPU 中最为明显）。对于外部缓存级别，通常使用分阶段的标签数据访问（在数据访问开始之前检查标签，节省能源——尤其是在具有较高关联性和未命中率的情况下）；给定容量的较小标签阵列既降低了访问能量又降低了延迟（尤其是对于未命中的情况——50% 的命中率并非闻所未闻）。（请注意，在未命中没有匹配部分标签的常见情况下，可以使用部分标签来提供早期未命中检测。其他过滤机制也是可能的。）

错误共享可以通过使用扇区缓存来解决，其中为标签的每个地址部分提供了多个有效性（或一致性状态）条目。这提供了具有更频繁错误共享的较大缓存线和具有较高标签开销的较小缓存线之间的中间设计点。这也固有地支持减少缓存线填充延迟。对于传统布局，当错误共享或更少的空间局部性更常见时，这具有大缓存行的大量有效容量成本。对于使用间接的设计，例如提议的非统一缓存架构和 V-Way 缓存，可以通过以更多的间接指针存储为代价以更精细的粒度分配数据存储来减少容量利用率问题。

更大的缓存线提供了三个带宽优势。命令开销更小（地址和动作信息几乎不变——地址每增加一倍就小一位），因此每个数据字节的带宽开销更低；这对于许多消息仅携带元数据的一致性流量更为重要。（显然，如果有更多的一致性节点，错误共享可能会更成问题。） . ECC（或带重传的校验码）在负载较大时也具有较少的每个负载字节开销（这可用于在使用商品宽度内存模块时存储额外的元数据）。

当突发长度固定时，更大的缓存线也有利于更宽的内存接口。增加 DRAM 突发长度有利于更高的带宽； DDR5 的突发长度变为 16，推动 DIMM 使用两个 32 位宽的通道，以与 x86 在 64 字节高速缓存线上的事实上的标准化兼容。虽然这种机会可以被视为增加可用内存级并行性 (MLP)——通道数量增加一倍并减少 DRAM 库冲突——但当内存的相对延迟更大时（大型片上缓存和更快的处理），MLP 更为重要，可以使用线程级并行（多核和多线程），乱序执行（和多线程）会暴露更多内存访问以隐藏延迟。多核（与多道程序或大块/流通信（例如管道式多线程）相比，与大量数据内存共享一起使用时）也增加了错误共享的重要性，进一步降低了较大缓存线的好处（超出了更窄通道的 MLP 好处） .随着更低的（片上）通信延迟和多核处理器几乎不可避免，多线程编程变得更具吸引力。

对于 L1 缓存，微体系结构（以及某种程度上的 ISA）可能会影响缓存线的大小。更高频率的设计有利于较小容量的 L1 缓存，以实现延迟和访问能量，尤其是对乱序执行或倾斜管道（其中执行管道阶段是从地址生成阶段延迟一个或多个阶段）的延迟容忍度更小。

各种权衡的相对大小还取决于工作负载和软件设计。针对从中受益的工作负载的较大缓存容量缓存减少了较大缓存行的过度预取和冲突缺点；较高的关联性减少了冲突劣势，但更有可能发生冲突的工作负载不太可能（通常）从空间局部性中受益（并且冲突劣势对于外部缓存级别通常不太重要）。指针追踪工作负载倾向于降低延迟，从而降低容量，并倾向于使用较小的缓存行（至少在 L1 中）。

软件设计是一个重要因素。避免错误共享往往会随着缓存行大小的增加而增加填充，从而阻碍更大的缓存行。一旦在软件社区（根据 ISA、操作系统和硬件/系统供应商的不同而有所区分）中建立了缓存线大小假设，遗留代码和遗留概念的影响就会限制缓存线大小。

推测：与面向工作站和服务器的 ISA/硬件供应商相比，x86 面向通用软件和个人计算机用途（成本和工作负载特性偏向于较小的缓存，工作负载可能通常具有较低的空间局部性）可能偏向于更小的缓存线对软件开发工作有更高期望的工作负载。 x86 已标准化 64 字节缓存行，IBM POWER9 使用 128 字节缓存块（分为四个扇区用于 L1 缓存），IBM z15 使用 256 字节缓存块。

（延迟与命中率、访问能量和其他权衡以及软件和程序员的遗留问题似乎导致对 32KiB L1 缓存容量的标准化不太严格。较小或较大缓存的性能影响可能不如错误共享，因此软件约束不如缓存行大小重要。）

为什么现在大多数缓存线大小设计为 64 字节而不是 32/128 字节？

如何解决为什么现在大多数缓存线大小设计为 64 字节而不是 32/128 字节？

解决方法

相关推荐