为什么要让一些寄存器调用者保存而另一些被调用者保存?为什么不让调用者保存它想要保存的所有内容?

如何解决为什么要让一些寄存器调用者保存而另一些被调用者保存?为什么不让调用者保存它想要保存的所有内容?

在这个 Wikipedia article about register preservation 中,我读到调用者函数负责一些寄存器(以防止它们以前的数据被更改)和其他人的被调用者。

我的问题是为什么我们要把事情复杂化?为什么不让所有寄存器都由调用者负责在调用函数之前备份现有值并在之后重新加载它们?

我没有看到执行这些步骤有任何性能提升,有人可以帮助我理解吗?

解决方法

您似乎有一种误解,认为每个使用过的寄存器都保存在某处。不是这种情况。 The very names "caller saved" and "callee saved" are terrible and misleading,基于代码生成的脑残模型,并且听起来并没有太大的不同并且难以思考。有关更多信息,请参阅该链接,但关键在于,当调用后不需要该值时,调用破坏的 aka 易失性寄存器可以“死亡”而不会被保存/恢复。 (例如,它仅作为函数 arg 计算)。调用者实际上将它存储到内存中并在之后重新加载它是没有意义的。

大多数函数并不需要始终将 31 个值保存在寄存器中,因此让其中一些值在函数调用中消失是可以的。


拥有一些保留调用的寄存器可以节省大量的静态代码大小,因为这意味着您不必在每次函数调用之前/之后编写存储/加载指令。整个功能只需一次。只有在被调用方内部一次,如果有的话。大多数函数是从多个调用点调用的;这就是为什么它们是函数而不是内联。

(如果只有一个调用站点,一个进行链接时优化的智能编译器会为你做这个内联,所以当我们谈论 asm 时,具有单独函数的高级软件工程/维护原因大多无关紧要适用于现代系统。)

大多数非叶函数进行多次函数调用,因此围绕整个函数保存/恢复几个保留调用的寄存器可让您在函数进行的每次调用中保留其中的值。就执行的总指令数而言,物超所值。

此外,在调用叶函数(不进行调用)的循环中,这是相当简单的(不需要接触任何保留调用的寄存器以获得足够的临时寄存器用于其自身目的),循环和被调用者需要做任何溢出/重新加载。在具有大量寄存器(如 RISC-V)的 ISA 上,叶函数可以利用现有的大量暂存寄存器做很多事情。 (因此,即使它不需要任何寄存器保存/恢复,它也可以大到足以证明不内联是合理的)。当然,虚函数和其他间接情况也可以防止内联,从而导致调用较小的叶函数。


相关内容:调用约定的效率,以及更多与更少的划痕与保留调用的 regs 之间的权衡:


示例:

RISC-V clang 10.0 on the Godbolt compiler explorer 开始,经过 -O3 全面优化。 (如果没有优化,编译器总是将变量保存在内存中,这将完全失败。)

int bar(int x) { return x + (x<<1) - 2; }
bar(int):
        addi    a1,zero,3         # note use of a1 as a scratch reg that wasn't an input
        mul     a0,a0,a1          # apparently clang tunes for very efficient mul
        addi    a0,-2          # retval in a0
        ret

如果我们不得不保存/恢复 a1 只是为了获得一些临时空间来计算一个简单的表达式,那将需要一些额外的指令来移动堆栈指针和存储/重新加载。假设我们的调用者在 a1 中没有任何它关心的东西,它也不会费心保存/恢复它。

int foo(int orig) {
    int t = bar(10);
    t = bar(t + orig);
    return bar(t + orig);
}
foo(int):
        addi    sp,sp,-16
        sw      ra,12(sp)           # save link register
        sw      s0,8(sp)            # save a call-preserved reg
        add     s0,a0         # and copy orig into it

        addi    a0,10
        call    bar(int)             # t = bar(10) in a0
        add     a0,s0           # a0 += orig
        call    bar(int)             # t = bar(t + orig) in a0
        add     a0,s0           # a0 += orig

        lw      s0,8(sp)
        lw      ra,12(sp)           # restore s0 and ra
        addi    sp,16           # dealloc stack space
        tail    bar(int)             # tail-call jump to bar(t + orig)

请注意 t + orig 临时值在每次函数调用时“消亡”。之后它不可用,因为调用者不需要它,所以不要将它保存在任何地方。在这种情况下,它在 a0 中计算它,因此它被返回值替换。如果我使用更复杂的表达式,那可能涉及在 a1a2 或其他寄存器中留下其他中间值,调用约定也会破坏。

如果以后不需要它们的值,甚至可以允许命名的 C 变量“死亡”。就像我已经完成 int t2 = bar(t + orig); 并在以后使用它一样,不需要 t 的值,因此代码生成可能是相同的。像 clang/LLVM 这样的现代编译器通过将您的源代码转换为 SSA 形式进行优化,其中覆盖旧变量或初始化新变量之间基本上没有区别。 (调试版本除外。)

这与上面bar的定义完全兼容;它是由相同的编译器为相同的调用约定生成的。

(尽管它们在同一个文件中,因此编译器可以看到两者,但它并没有将调用约定转换为这两个简单函数的自定义约定。如果这样做了它不是内联,而是将 args 传递给 bar 在不同的寄存器中,而不是将传入的 arg 传递给 foo,因此 foo 不必保存/恢复 s0。甚至可能使用不同的返回地址寄存器,这样 foo 就可以避免保留任何堆栈空间:RISC-V call 只是 jal 的别名,ra 获取返回地址。当然,对于像这样的简单函数,内联它显然更好,但我使用了__attribute__((noinline)) 强制 clang 不这样做。)

Godbolt 链接中还包含一个执行 arr[i] = func(i); 的循环。 (该 func 可以像 bar() 一样简单,仅使用临时寄存器)。如您所见,它在循环函数的顶部保存了一些寄存器,因此它可以在循环中的寄存器中有变量。

test2:
   # ... save regs and set up s0=i=0
   #                          s1=pointer into array
   #                          s2=n
.LBB2_2:                                # do {
        add     a0,s0
        call    extfunc(int)
        sw      a0,0(s1)                 # *p = retval
        addi    s0,s0,1                 # i++
        addi    s1,s1,4                 # p++
        bne     s2,.LBB2_2         # }while(i != n)
   # then some cleanup

所以它在循环之前/之后需要一堆指令,但是每次函数调用都会运行一次。循环体运行 n 次,因此最小化其中的指令对性能的价值大约高 n 倍。 (如果存储/重新加载会造成存储转发延迟瓶颈,则可能超过 n。)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)&gt; insert overwrite table dwd_trade_cart_add_inc &gt; select data.id, &gt; data.user_id, &gt; data.course_id, &gt; date_format(
错误1 hive (edu)&gt; insert into huanhuan values(1,&#39;haoge&#39;); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive&gt; show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 &lt;configuration&gt; &lt;property&gt; &lt;name&gt;yarn.nodemanager.res