HPE ProLiant DL380 Gen9服务器
在使用了 三年 之后,我的二手 HPE ProLiant DL360 Gen9服务器 终于拒绝启动了。为了能够利旧自己已经投入的设备(服务器的成本大头是内存条和存储),在对比淘宝不同二手服务器之后,感觉要降低二手设备投入,还是得使用已经被IDC大量淘汰的X99架构服务器:
X99服务器准系统只需要550元(+30元运费)就能够买到HPE ProLiant DL380 Gen9服务器;而较新的X299服务器准系统大约需要2000元,加上还需要投入处理器的费用,以及随着主机扩展性大增而引发购买 NVIDIA GPU 设备的欲望,恐怕需要投入4k的资金
更新版本的X299服务器虽然扩展能力更强(支撑更大规格的内存),但是我已经没有资金可以投入到二手设备上了(一想到3750元教育优惠的 Mac Mini 2024 ,绝大多数二手设备的性价比其实远不如这掌上低功耗 Mac Mini 2024 )
言归正传,我再次选择 HPE GEN9 系列机架式服务器的原因:
原先 HPE ProLiant DL360 Gen9服务器 的配件可以全部通用,这样保留了原先投入的沉没成本:
双 Intel Xeon E5-2670 v3处理器 (540元)
768G内存 (大约4000元)
3块 三星PM9A1 NVMe存储 (约2400元)
Intel 4口千兆网卡 (220元)
硬盘架8个 (320元)
Nvidia Tesla P10 GPU运算卡 (1000元)
1400w电源 (110元)
其他配件
重组之后新的 HPE DL380 gen9 总体成本大约1万元(这次挽救重新投入了大约700元):
心痛,没想到这几年陆续在这台二手服务器上投入了这么多
我决定 不再投入资金到二手设备 ,而专注于软件开发和系统优化,以便能够充分发挥既有硬件的能力:
第二个GPU扩展槽
和 HPE ProLiant DL360 Gen9服务器 类似,购买的二手DL380是没有 HPE DL380 Gen9 Secondary 3 Slot GPU Ready Riser Kit(次级/2号 3插槽 GPU 扩展卡套件) ,需要从淘宝上购买。不过 HPE ProLiant DL380 Gen9 Server QuickSpecs 提供的配件信息 719073-B21 在淘宝上是搜索不到的。
根据淘宝搜索和Goolgle Gemini分析,综合如下:
在 HPE 的零件体系中,一个扩展卡套件通常有三个相关的编号,它们指代的都是同一个东西:
719073-B21:销售单号(Option Part Number),买整盒新机件时用的。
777283-001:备件编号(Spare Part Number),售后维修更换时用的。
729810-001:组件/板卡编号(Assembly Number),通常直接印在绿色电路板(PCB)上。
实际上在淘宝上搜索 "HP DL380 扩展" 能够找到上述 777283-001 和 729810-001 ,也就是符合要求的第二个GPU扩展槽。
需要注意对比 Secondary(2号)GPU Ready 扩展笼 :
插槽数量:该扩展笼必须有 3 个 PCIe 插槽(2个 x16,1个 x8)
电源接口:作为 "GPU Ready" 版本,板卡上应该带有一个 10-pin(10针)的供电接口(用于连接显卡供电线)
安装要求
2 号扩展槽正常工作,服务器必须满足以下条件:
必须安装第二颗处理器 (CPU 2) :2 号扩展槽的 PCIe 通道是由第二颗 CPU 直接提供的。如果服务器只安装了一颗 CPU,这个扩展笼插入后将无法被系统识别,插在上面的显卡也不会通电。
电源功率 : 在该槽位运行高性能显卡(如 Tesla K80/M40/P100 等),需确保服务器配备了双 800W 或 1400W 的电源,单 500W 电源可能无法承载 GPU 的瞬时功耗
配件要求:
GPU 供电线:连接扩展笼 10-pin 接口与显卡 6-pin/8-pin 接口的线缆
高性能风扇:HPE 官方要求加装 GPU 后,机箱内的 6 个风扇位必须全部换成 高性能版本 (标签上通常有红色标识),否则系统可能会报错或由于散热不足导致显卡降频
PCIe
第一个扩展笼(Riser Card): (部件号:719076-B21 / 745034-001)包含 3 个插槽
要支持 PCIe Bifurcation,DL380 Gen9 必须升级到 System ROM (BIOS) v2.30 或更高版本
推荐版本: 最新的 v3.08 (2024年发布) 或更高,后期版本不仅优化了分叉后的信号稳定性,还修正了第三方 NVMe 转接卡引起的 iLO 风扇转速过高逻辑
(极有可能)只在Riser 1(第一个扩展笼)支持 PCIe bifurcation 拆分成
x4x4: 被动式(无 PLX 芯片)的 1 分 4 转接卡要求主板不仅能拆分数据信号,还要能为 4 块硬盘提供独立的参考时钟(RefClock)。Gen9 的主板电路设计通常只在 x16 槽位上提供 1 到 2 组参考时钟,这限制了它最多只能拆分为 x8x8插入第三方 NVMe 卡(不论是否分叉)后,iLO 4 会因为无法读取第三方卡的温度,默认将风扇转速拉高到 40%-60% (噪音巨大)
插槽位置 |
物理尺寸 |
电子带宽 (Speed) |
信号来源 |
支持高度/长度 |
|---|---|---|---|---|
Slot 1 |
PCIe x16 |
PCIe 3.0 |
CPU 1 |
全高 / 全长 |
Slot 2 |
PCIe x16 |
PCIe 3.0 |
CPU 1 |
全高 / 全长 |
Slot 3 |
PCIe x8 |
PCIe 3.0 |
CPU 1 |
全高 / |
备注
物理与电子带宽不一致 : Slot 1 和 Slot 2 的插槽虽然看起来是全长的 x16 接口,实际提供的带宽只有 x8。这意味着如果你把显卡插在这里,它只能以 x8 的速度运行。
CPU 直连 : 1号扩展笼的所有 3 个插槽全部由 CPU 1 提供信号(即使服务器只安装一个CPU也能工作)
Slot 3 的限制 : 物理只支持 x8 ,所以无法安装全长 x16 的大型显卡
Bifurcation (分叉) : Riser 上搞 PCIe 分叉,通常是针对 Slot 1 或 Slot 2,且由于硬件布线的固化为x8,所以最多只能支持
x8x8
电源
购买了两个 AMD Radeon Instinct MI50 ,峰值功率300W,合计有600w功率要求。在我的服务器硬件配置,功耗估计:
组件 |
数量 |
单件峰值功耗 |
小计功耗 |
|---|---|---|---|
AMD Radeon Instinct MI50 |
2 块 |
300W |
600W |
NVIDIA P10 (P100 等效/类似卡) |
1 块 |
约 250W |
250W |
Intel E5-2600 v3 (双路) |
2 颗 |
约 105W-145W |
约 250W |
768GB 内存 (24条插满) |
1 组 |
约 3W-5W/条 |
约 100W |
主板/风扇/硬盘/其他 |
约 100W |
||
预估总峰值功耗 |
~1300W |
由于整机峰值功耗接近 1300 W,所以安装 两个完全相同的 1400W 铂金电源(Flex Slot Platinum Plus)
1400W 电源的电压要求 : HP服务器BIOS可以配置两个相同规格电源冗余模式,也就是 双电源默认是“自动负载均衡”模式,即两个电源同时工作。 (HPE官方明确禁止混插不同功率容量电源,会被系统识别为"不匹配(Mismatched)"导致不稳定,甚至为把偶硬件而 拒绝开机或自动关机 )
两个电源各承担约 50% 的功耗输出
优点:由于每个电源都只在半载左右运行,转换效率较高,且由于发热分散,电源的寿命会更长。
切换:如果其中一个电源模块损坏或断电,另一个电源会瞬间接管 100% 的负载,确保服务器不宕机。
不建议单电源: 虽然单个1400W电源也能满足峰值功率要求,但是长期高负载会缩短电源使用寿命,并且一旦电源故障瞬间掉电关机对硬件冲击可能损坏昂贵的GPU设备
查看电源模式
iLO 4 管理界面:登录 iLO,在 Power Management -> Power Settings 里可以看到当前的电源冗余状态和实时功率计
BIOS 设置:开机按 F9 进入 System Utilities -> System Configuration -> BIOS/Platform Configuration (RBSU) -> Power Management -> Redundancy Mode 进行修改
高性能风扇
HPE ProLiant DL380 Gen9服务器的GPU安装装载服务器后端,对于 AMD Radeon Instinct MI50 这样大功率被动散热设备,散热是一个很大的挑战: 冷却气流从服务器前端吸入,经过CPU和内存模块再对GPU进行降温散热,整个气流通道很长且阻碍较多。
所以HPE官方要求服务器只要安装了GPU,就需要将常规散热风扇替换成高性能风扇,以加大散热气流:
高性能风扇(部件号:719074-001 或 761510-001),淘宝上能够找到的配件标号是
777285-001,实际上是Gen 10使用的配件,但是和Gen 9完全通用高性能风扇的电流通常是 2.1A 至 2.65A 之间,如果标签上写的电流小于 1.0A 则表明是常规风扇
高性能风扇外壳顶部的拉环部分是红色提手(常规风扇是蓝色)
AMD Radeon Instinct MI50 和 Nvidia Tesla P10 GPU运算卡 都是 被动散热(Passive Cooling) ,完全依赖服务器机箱内部的6个风扇产生的风压强行吹过显卡的散热鳍片
固件锁定:当服务器检测到 PCIe 插槽中有大功率 GPU 存在时,iLO 固件会自动锁定一个较高的风扇基础转速
为降低高速风扇噪音:
更新 iLO 4 固件 :确保 iLO 4 固件升级到最新版本(2.70 及以上)新版本对风扇调速算法有所优化( 我的实践 HP iLO升级 到版本 2.82)
Thermal Configuration 设置 : 在 BIOS 中,将 Thermal Configuration 设置为 "Optimal Cooling"
如果使用标配风扇,HPE DL380 G9 的 iLO 固件检测到GPU存在为防止硬件烧毁,会强行将标配风扇推到 100% 全速运转,但是风压不足,散热效果还是达不到要求;所以改为专为GPU和165W+ CPU设计的高性能风扇,并设置 "Optimal Cooling" Thermal configuration,在非高压力下还是会维持在相对稳定的转速和噪音
存储
M.2 SSD存储
DL360/DL380 gen9最佳存储(不考虑成本)是采用M.2 NVMe存储 SSD存储:
内置 PCIe bifurcation 控制器的PCIE阵列卡,例如
JEYI佳翼PCIE4.0x8阵列卡能够将X8或X16拆分为4个 M.2 接口NVMe SSD存储只需要占用一个PCIe接口就能够安装4块 M.2 NVMe SSD存储,获得最高速和极大容量的静音存储
但是很不幸,在2025年开始AI狂飙的时代,内存和存储的产能被企业级AI所吞噬,导致个人使用的内存、SSD存储价格翻倍甚至翻数倍,可能在最近一到两年都无法回到正常的价格体系。所以,当前性价比已降低了很多,也迫使我退而采用二手SAS机械硬盘来组建 ZFS RaidZ 来实现经济型的大容量存储(最自身也是一个极大的技术挑战,如何构建靠性能、可靠、静音的存储)
SAS存储
我发现自己以前购买 HPE ProLiant DL360 Gen9服务器 时候由于不了解 SAS 和 SATA 的区别,但是考虑自己完全使用 ZFS 来构建存储,不需要RAID卡,所以没有选配 P440ar 阵列卡。但是实际上带来了后续的不足:
P440ar 阵列卡支持SAS硬盘,并向下兼容SATA硬盘;如果没有选配这块阵列卡,那么8盘位背板是连接到主板自带 B140i 控制器,仅支持 SATA 硬盘。
实际上二手市场有大量淘汰的SAS硬盘价格低廉,由于服务器没有配置 P440ar 阵列卡无法选购,实际降低了扩展性。
选配要点:
P440ar阵列卡(备件号:726736-001 或 749974-001)的ar代表Adaptive RAID,是插在主板中心位置专用的扁平槽位上,不占用PCIe位置需要配套的 Mini-SAS HD 弯头线缆。这根线一头连接 P440ar 卡上的两个端口,另一头连接前面 8 盘位背板上的两个端口
P440ar 通常配有一块 FBWC 缓存卡 和一根连到 智能存储电池(Smart Storage Battery) 的线(在淘宝上这个"缓存电容/电池"需要单独购买):
如果跑 ZFS ,会把
P440ar设置为HBA(直通)模式,由ZFS接管缓存逻辑,所以没有这块电池SAS硬盘也能正常工作如果改为RAID模式,则需要这块缓存电池,否则会极大限制写入速度
阵列卡配置(整理记录,目前还没有硬件可供实践):
开机按
F10进入Intelligent Provisioning选择
Smart Storage Administrator (SSA)选择
P440ar控制器,在配置选项里找到Configure Devices Into HBA Mode
这一步非常关键: 只有开启了 HBA Mode,Linux系统 和 ZFS 才能直接识别到 SAS 硬盘的物理底层,性能才是最强的
备注
DL380 gen9 可以配置两种Flexible Smart Array控制器:
P440ar Flexible Smart Array控制器
P840ar Flexible Smart Array控制器
存储规划
考虑到经济性和技术挑战优化,针对我目前具备的 DL380 ,最理想的(省钱)存储架构:
HPE P440ar 存储阵列卡 成本25元
DL380 g9 2.5寸 8盘位 SAS 硬盘背板 硬盘笼 777279-001 带线: 可以连接 HPE P440ar 存储阵列卡 在第二个硬盘笼安装8块SAS硬盘
2块 Intel S3710
400GBSSD存储: 构建 zfs