Dell T5820宕机异常排查
考虑到 Intel VNNI指令集 支持,以及核心数多、二手价格便宜,我最初购买 Intel Xeon W-2235 作为T5820的处理器:
官方手册 戴尔 Precision 5820 Tower 用户手册 列出的
W-22xx包含了这款经济实惠的处理器,也是我能够接受的500元以内预算6核心12超线程,是500元以下性能最强(发布时售价高达610美元)
但是,万万没有想到,小心组装完成后,开机就出现 连续4次琥珀色报警灯闪烁 并自动关机!!!
和gemini讨论之后,初步定位可能有:
电源老化损坏或者主板短路或者CPU辅助供电线松动
内存故障或不兼容
开机瞬间多GPU导致券功率检测状态(Inrush current)失败
CPU针脚歪斜导致电压检测失败
然而,实际排查却排除了上述可能:
插拔了可能的电源线确保电源连接可靠
内存仅保留slot1,并替换排查多根内存
去掉所有可能高功率设备(显卡),仅保留CPU和一根内存
通过观察CPU底座针脚反光确认没有出现针脚歪斜
折腾了很久也没有解决,问了淘宝卖家,卖家说他们的技术在大量装机和售后实践确定这个T5820只支持到 W-2225 ,不支持 W-2235,即使刷新到最新的2.48 BIOS版本也是这样。
WAHT?
为何Dell手册却列出了支持多种W-22xx处理器,包括 Intel Xeon W-2235 ,我运气这么不好吗?
备注
根据现象来看,4次闪烁琥珀色告警,但是没有出现白色闪烁,说明故障大概率和电源有关。因为手册列出的告警灯闪烁,白色闪烁灯是BIOS启动之后开始CPU和内存检测异常才会出现。
也就是说,没有出现白色告警闪烁,说明还没有进入BIOS检测就宕机了,多数和电源不稳定相关。
gemini提到了启动时电流不稳定会导致自动宕机,讨论到了主板的供电相(Phases)在早期型号中只有5-7相:
CPU 是一个极其“渴电”的精密器件。W-2235 (130W) 在满载时,核心电压约 1.2V,这意味着电流会激增到 100A 以上。如果只靠一组电路来转换,发热量会瞬间烧毁电子元器件:
主板采用了**多相并联(Multi-Phase)**技术。每一“相”通常由三个核心组件构成:
WM 控制器:指挥官,决定每一相什么时候“开闸放水”。
MOSFET (场效应管):开关,负责切断和导通电流(产生热量的主要来源)。
电感 (Choke):储能和滤波,通常是主板 CPU 插槽周围那些黑色的方块。
在 2019 年出厂的 T5820 主板上,肉眼观察 CPU 插槽左侧和上方的黑方块:
如果只有 5-6 个:那么这块主板面对 130W 的 W-2235 确实处于临界点。启动瞬间,为了给 6 个核心同时充满电荷,VRM 负载会瞬间爆表,导致 琥珀色灯闪(供电轨故障)。
根据gemini提示,我观察了主板CPU周围电感,果然发现异常:
CPU旁边的电感只有5个,并且有一个空白未焊接电感
我购买的T5820的CPU旁边的电感只有 5个 ,有一个空白未焊接电感的位置。这表明Dell为了降低成本,早期T5820主板削减了1个电感。虽然这能够满足2019年及之前Intel CPU,但是对于之后发布的高功率大电流的CPU,则缺乏硬件支持。所以即使升级BIOS也无法解决这个支持W-2235。
也许后期发布的T5820版本补充了这个电感,所以后续T5820通过升级BIOS是能够支持 Intel Xeon W-2235 。
组件 |
电子学角色 |
水路模拟 |
主要功能 |
|---|---|---|---|
电阻 (Resistor) |
阻碍电流 |
狭窄的管道/水龙头 |
控制流量,消耗多余能量(发热) |
电容 (Capacitor) |
储存电荷(电压) |
储水罐/水塔 |
稳定电压,填补水流的瞬间空缺(平滑电压) |
电感 (Inductor) |
储存磁能(电流) |
带有沉重叶轮的水车 |
抵抗电流突变,保持电流平稳(平滑电流) |