.. _hp_z8_g4: ===================== HP Z8 G4工作站 ===================== 2026年初,为了能够7x24小时运行 :ref:`tesla_a2` 和 :ref:`amd_mi50` ,加上想实践 :ref:`openvino` ,一狠心剁手了HP Z8 G4工作站,替换架构老旧且噪音巨大的 :ref:`hpe_dl380_gen9` : - CPU架构升级到了 Intel Scaleable Gold 6240,终于能够完整支持 :ref:`openvino` 实现CPU加速推理( 准备再次实践 :ref:`deploy_deepseek-r1_locally_cpu_arch` ) - 完全兼容使用之前在 :ref:`hpe_dl360_gen9` 和 :ref:`hpe_dl380_gen9` 的ECC DDR4内存,虽然理想状态是使用更高频率的内存,但是现实是内存实在太贵了,能够利旧之前投资的大量DDR4内存已经是非常完美的方案 - 桌面工作站,散热风扇采用了静音的大尺寸,理论上能够7x24运行不影响居家休息 内存识别 ========= 我在首次组装完成后,启动服务器观察到BIOS中识别内存有报错: - CPU0上的 DIMM2, DIMM3, DIMM4 显示是 Samsung - DISABLED - CPU0 和 CPU1 的 DIMM11 都插了内存条,但是BIOS检测显示是 Empty Gemini给出的解释是 "在 HP 的语境下,DISABLED(禁用)通常不是指你手动关掉了它,而是指内存训练(Memory Training)失败" : - 含义:BIOS 在开机自检阶段检测到了这三根内存,但无法在预定的频率(2933MHz 或 2666MHz)下完成数据同步。为了保证系统能启动,BIOS 自动屏蔽了这三根内存 - 原因:这通常与 CPU0 的散热器压力不均有关。DIMM 2、3、4 往往对应特定的内存通道(如 Channel B/C)。如果 CPU0 压得不平,针脚接触不良,这一整组通道都会被 Disabled 另外,两个CPU对应的DIMM11同时没有检测到内存是很罕见的,不太像同时没有插紧内存条,Gemini给出的解释: - 逻辑原理:在 Z8 G4 的架构中,DIMM 11 和 DIMM 12 通常共享同一个内存通道(通道 F) - 硬件要求:如果该通道的首位插槽(通常是 11)通信不稳定,或者阻抗匹配失败,BIOS 会认为整个通道不可用 - 填充规则错误:对于 22 根内存的这种“接近满插”状态,Z8 G4 极其敏感。如果你空出了 DIMM 12,而 DIMM 11 上的内存与前面的内存规格(如秩数 Rank、频率)有极微小差异,BIOS 就会因为无法完成通道平衡而将其同时忽略 所以我理解: - 需要重新安装CPU0的散热器,尝试将CPU0压平稳来排查是不是存在安装问题导致部分DIMM内存条被禁用 - 需要更换DIMM11内存到DIMM12 - 原因:这通常与 CPU0 的散热器压力不均有关。DIMM 2、3、4 往往对应特定的内存通道(如 Channel B/C)。如果 CPU0 压得不平,针脚接触不良,这一整组通道都会被 Disabled 最终排查 ---------- 最终发现, CPU 0的socket底座上密集排列的金属探针,有几根可能是二手拆机时候被金属物划过了,从灯光侧面照射能够看出和周围探针反光不同。这也印证了推测,就是CPU压上去的时候,有部分针接触不紧密存在电气异常,所以导致了BIOS禁用了部分内存插槽。 **拆装CPU需要非常小心不要碰坏底部socket的金属针脚** 主机启动BIOS设置 =================== HP Z8 G4按下开机按钮后,连续按 ``ESC`` 按键,则会进入启动菜单,此时可以选择 ``F10 BIOS Setup`` 使用体验 ========== 我原本预期HP Z8 G4能够极大降低运行噪音,解决我在卧室长时间运行 :ref:`hpe_dl380_gen9` 的噪音困扰。不过,实际体验下来并不能达到我所期望的理想状态: - 满配安装24根内存(768GB)和双处理器Gold 6240之后,再加上 :ref:`intel_arc_a770_graphics_16gb` 之后,主机的散热风扇可能因为需要为满配设备散热(实际无运行负载),带来的噪音测试下来大约有50dB(A)/50dB(C),在卧室中听起来还是比较扰人的 - Z8 G4虽然号称有7根PCIe插槽,实际上现在的GPU都是双槽,例如 :ref:`amd_mi50` ,会遮挡相邻PCIe插槽导致浪费。我不断调整,也只能插入: - 两块 :ref:`amd_mi50` 各自占据一个x16和一个x4 (消耗了4个槽) - 两块 :ref:`tesla_a2` 各自占据一个x16 (消耗了2个槽) - 一块 25G 网卡 (消耗1个槽) 也就是说7个PCIe插槽只能使用5块卡,白白浪费了2个 - 虽然主板自带的存储控制器是同时支持SATA和SAS,但是要启用SAS需要安装授权key,也就是说对个人而言支持SAS很难搞定 - 主板另外带了两个独立的x8 PCIe,但是位置位于顶部狭小空间,需要通过官方定制的PCIe转接版转接 M.2 NVMe存储。好消息是一块转接板可以安装2个M.2接口的NVMe,内置了 :ref:`pcie_bifurcation` ,也就是总共 **可以安装4块NVMe** ;坏消息是每块转接板需要300RMB,两块转接板600够买一块入门级GPU计算卡了 - Z8 G4内置了4个GPU电源线,也就是正好能够带动两块 :ref:`amd_mi50` ,正好我的另外两块 :ref:`tesla_a2` 无需外接电源。不过也意味着,官方默认就只标准支持2块双槽GPU,如果要再安装一块大功率的双槽GPU需要定制电源分叉线 - 主机上方空了2个台式机光驱位置完全是鸡肋,浪费了空间