记一次硬件故障,并普及点硬件知识
记一次硬件故障
既当故事,也做见识~
始末
事情是这样的,星期四的时候需要用工作站
的GPU
进行AI模型训练,所以把GPU
和主板
驱动升级了一下,然后就运行了1天,晚上的时候暂停任务,心想着让工作站
休息一晚,明天继续吧(那GPU
运转和产热真是夸张啊,现在知道为什么GPU
都有两个风扇了)
第二天把工作站
重新开机,发现远程连接不了了,这就坑了
尝试
于是先ping
了一下,发下不通,然后登陆路由查看了一下,没发现工作站
,那肯定是开不了机了
接着找了个显示器连接到了工作站
上,发现开机没反应,显示器一点变化都没有
这时候学生时代两层机房的管理经验就用上了,把工作站
拆了
发现GPU
落灰挺严重的,估计是大量运算卷起的灰尘,加之工作站
刚安装的时候显卡也出现过一次接触不良的情况,遂拆了重新装
先拧开螺丝(供电的线如果阻碍可以先拔了,如果不影响就不管)
按一下卡扣,手握两头就可以轻松拔下(别用蛮力,显卡将近3k,主板将近4k)
我是确保这个卡槽没问题的,要是你不确定可以安装了另一个卡槽上,工作站
基本上都是多个显卡槽
发现开机黑屏了(这个有个技巧,关下显示器再开,如果屏幕亮画面黑,就是黑屏)
PS:其实开机黑屏,插拔内存就可以解决80%的情况
那就插拔内存试试,我这边4个卡槽,先拔下内存条
插下内存条
的金手指
发现还是不行,开机继续黑屏
那就得排出是否是某内存条烧坏了,于是单个插入来试
单插外部的没事,可以开机,单插内部位置的内存不行
于是得进一步排出,是卡槽出问题了,还是内存出问题
外部内存插入里面卡槽也开不了机,里面位置的内存插入外部可以开机
那么就可以判断里面卡槽出问题了,至于是落灰还是其他问题有待排查,先继续说
把内部内存换个卡槽就可以了
PS:推荐内存是一个牌子的,比如都是金士顿,有时候不太牌子的内存容易有其他问题,以前踩过坑
然后就可以了~
扩展
硬盘知识
顺便普及一个硬盘的知识点,以某老电脑为例:
这个是连接线,通过这个电脑就可以访问到硬盘
PS:为电脑或者服务器添加硬盘的时候,这个先也要买一下,而且得看一下主板上还有没有接口
这个是电源给硬盘供电用的线
看张详细图
改装大佬
先申明,不推广,不发链
之前朋友想买2T的WD硬盘,500左右,问我有没有性价比高的推荐
我说3T硬盘500左右,自己买个硬盘盒就可以用了,而且不容易坏,考虑不
PS:经常使用的情况下:移动硬盘一般2年左右的寿命,硬盘5年左右
最终效果
缺点:需要额外供电,体积比移动硬盘大点
(如果想小点可以使用笔记本的硬盘)
PS:硬盘是3.5英寸的,笔记本硬盘是2.5英寸的,买硬盘盒需要注意一下,搞不清楚就买通用的
题外话
当然了,NAS也可以自己改装,多盘支持的容器
+LoT
+RAID 0
就可以搞定了,以后有机会继续说