问题描述
- 1
- 2
发现显卡Tesla k40c的温度已经达到74°,转速仅仅只有49%。
查看Tesla产品资料,Tesla K40 工作站加速卡规格,可知
所以需要调整风扇速度来降温。
然而官方驱动面板里也没有了风扇调速的选项
1
nvidia-settings
方法一
2
找到”Section Device” 这块
添加: Option “Coolbits” “4”
4
保存之后,重启机器。调节选项出现,如下图:
这时你会看到在Thermal Settings里面有一个 Enable GPU Fan Settings,可手动调节显卡温度。
方法二
有时会出现以下问题
1
cannot stat /etc/x11/xorg.conf no such file or directory
这时需要
2
sudo nvidia-xconfig
sudo nvidia-xconfig --cool-bits=4
Using X configuration file: “/etc/X11/xorg.conf”.
Backed up file ‘/etc/X11/xorg.conf’ as ‘/etc/X11/xorg.conf.backup’
New X configuration file written to ‘/etc/X11/xorg.conf’
如若没有变化,则需要
1
sudo gedit /etc/X11/xorg.conf
添加 Option “Coolbits” “4” 如下
"Device"
Identifier "GeForce GTX 570"
"Nologo" "True"
然后重启
1
nvidia-settings #可查看调节选项
或者
1
nvidia-settings -a "[gpu:0]/GPUFanControlState=1" -a "[fan:0]/GPUTargetFanSpeed=100"
这里GPUTargetFanSpeed=100就是风扇的速度,100就是风扇运行在100%的速度,也可以改成其它速度. 注意在新的NVIDIA驱动,GPUCurrentFanSpeed 被改成了 GPUTargetFanSpeed. 另外GPUFanControlState=1表示让用户可以手动调节GPU风扇速度.
如果你想回到GPU自动控制风扇速度,运行下面
"[gpu:0]/GPUFanControlState=0"
备注:
切记输入
1
startx
来重新安装xorg,这样会带来更大的麻烦。重启后再输入密码,然后又进入一个登陆界面,输入密码,然后又回到原来的登陆界面。。。这样一直下去,死循环了
6
Alt+Ctrl+F1 #进入控制台界面
cd ~ #进入你的用户目录
ls -ah #查看所有的文件
rm -rf .Xauth* #删除.Xauthority文件
Alt+Ctrl+F7 #返回到登陆界面
#输入密码即可登入
startx命令是用来启动X windows服务器的,运行后在用户目录下生成一个.Xauthority文件,正是该文件导致系统进入死循环,删除即可。
方法三
sudo apt-get install nvclock
3
#change GPU fan speed,write this:
nvclock -f -F 70
这样风扇速度就会维持 fan speed will run at 70%
若无法安装 nvclock,则需要更新源包
sudo gedit /etc/apt/sources.list
添加源包
1
deb http://us.archive.ubuntu.com/ubuntu trusty main universe
更新源包
sudo apt-get update
sudo apt-get nvclock
设置多显卡降温
1 nvidia-xconfig --enable-all-gpus
其余步骤同单显卡一致。
备注:
Tesla的显卡K40开始k系列M系列p 系列都是被动散热对硬件要求高。所以无法使用上述方法对风扇调速。
Tesla C卡主要用在“台式机”上的,为了顾虑到一般台式机可能未考虑“散热”问题,所以C卡上自带风扇,让散热效果好一些。而M卡是专门为“机架式电脑”设计的,绝大部分机架式电脑是一堆放在机架上的,所以内部有更多的风扇与导流设计,这样M卡就可以省略风扇,把体积做到更小,提高单位体积的计算密度。
同样的,M卡为集群而设计,因此本身还提供更多的“监控元件”能与“集群管理”软件结合,管理人员可透过管理软件监控每一片M型GPU卡的温度与状态,温度过高也可透过管理软件发出警告。C卡则缺乏这样的功能。
每台GPU系统最佳的GPU数量为2片(多卡架构的最小数量),最多别超过4片。市面上有8片甚至到16片的方案,不仅“散热”问题、电源供应问题会令人提心吊胆,此外,收到PCI-E总线限制,超过4片以上的方案,都得不到“完整PCI-E带宽”,所以GPU数量看来好像很多,但都得不到相对的性能提升。因此建议 2~4 片 GPU 的系统,是性价比、稳定性较优的配置。
参考文献
How can I change the nvidia GPU fan speed?
How To Install nvclock On Ubuntu 14.04 LTS
深度学习训练时GPU温度过高?几个命令,为你的GPU迅速降温
Adjust Nvidia GPU fan speed (Multiple GPUs,one monitor)
Guide for fan speed control for Nvidia cards in Linux
原文地址:https://www.jb51.cc/ubuntu/350437.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。