如何解决如何通过两个 512 字节数组的交替加载来预测直接映射缓存的行为
给定这段代码:
int x[2][128];
int i;
int sum=0;
for(i=0; i<128; i++){
sum += x[0][i] * x[1][i];
}
假设我们在以下条件下执行此操作:
- sizeof(int) = 4。
- 数组 x 从内存地址 0x0 开始,按行优先顺序存储。
- 在以下每种情况下,缓存最初都是空的。
- 唯一的内存访问是对数组 x 的条目。所有其他变量都存储在寄存器中。
鉴于这些假设, 估计以下情况的未命中率:假设缓存是 512 字节,直接映射,16 字节缓存块。
根据这些信息,我知道这个缓存中有 32 个集合(从 512/16 获得)。所以第一组加载了 x[0][i] 和 4 个整数。
-
但是对于第二部分 x[1][i],我怎么知道这里加载的值是否会覆盖 x[0][i],x[0][i+1],x[0][i+2],x[0][i+3] 的第一次加载?或者将 x[1][i],x[1][i+1],x[1][i+2],x[1][i+3] 存储在与第一次加载不同的集合中x[0][i]?我对这段代码如何加载到缓存中感到困惑。
-
这个的漏检率是多少?
感谢任何帮助:)
解决方法
一般来说,仅通过查看 C 代码无法预测缓存系统中会发生什么。为此,您至少需要查看生成的机器代码。
请记住,只要最终结果和副作用相同,编译器就可以做各种优化技巧。
所以原则上一个聪明的编译器可以把代码变成:
for(i=0; i<128; i += 4){
regA = x[0][i];
regB = x[0][i+1];
regC = x[0][i+2];
regD = x[0][i+3];
sum += regA * x[1][i];
sum += regB * x[1][i+1];
sum += regC * x[1][i+2];
sum += regD * x[1][i+3];
}
这会完全影响缓存的使用。除此之外,在硬件层面上可能还有一些你甚至无法从机器代码中看到的优化技巧。
无论如何 - 如果我们假设是“直接非优化”编译,那么每次执行 sum += x[0][i] * x[1][i];
原因是 x[0][i]
和 x[1][i]
之间的距离是 128 * 4 = 512,这正是缓存大小。因此,来自 x[0][i]
和 x[1][i]
的数据将使用相同的缓存行,这意味着第一次缓存未命中后读取的数据将被第二次缓存未命中后读取的数据覆盖。
所以根本不会有任何缓存命中。您将获得 2 * 128 = 256 次未命中和 100% 的未命中率。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。