思考机器

我最初采用 HPE ProLiant DL380 Gen9服务器 来安装运行 NVIDIA Tesla A2 GPU运算卡AMD Radeon Instinct MI50 ,但是DL380这样的机架式服务器噪音极大,在家中使用非常不便。

我后来想采用自己组装台式机来降低噪音,类似 HP Z8 G4工作站 那样(虽然我也尝试过Z8,但是太贵了而且运气不好买到了存在硬件缺陷的准主机,最后放弃)能够同时兼顾多GPU且静音的主机。

虽然最初我的想法比较模糊,我只考虑到体积小巧,选购了 纳斯NASSE C246 ITX主板 ,确实存在PCIe扩展限制。

备注

目前我投入资金的GPU最佳性能硬件是 AMD Radeon Instinct MI50NVIDIA Tesla A2 GPU运算卡 ,通过改造硬件来实现现有硬件投入的充分利用。

硬件

组装机

纳斯NASSE C246 ITX主板 的主板虽然只有 1个PCIe 3.0接口 ,但是通过 GPU相关BIOS设置 设置,能够将一个PCIe x16通过 PCIe bifurcation 拆分成 x4x4x8 实现连接 3个PCIe设备

那么第4个GPU设备是如何连接到 纳斯NASSE C246 ITX主板 主板的呢?

答案就是 OCuLink 连接到 纳斯NASSE C246 ITX主板 的一个 M2 接口上,采用很久以前 树莓派外接GPU实现机器学习架构 实践时购买的外接eGPU转接卡实现: Nvidia Tesla P10 GPU运算卡

但是上述架构有一个隐含的缺陷,在低端台式机上,兼容主板只支持1条PCI3 3.0的x16,通过 PCIe bifurcation 能够获得 x4x4x8 的3个插槽,但是也就止步于此。主板通过PCH南桥能够获得大约x4的带宽,但是是分配给2个 m.2 接口使用,虽然我购买了 OCuLink 扩展卡,理论上能够再多接2块GPU,但是实际上由于PCH南桥 x4 带宽共享给2个GPU,会出现带宽争抢。而且当采用5块A2并行推理,实际上有2块A2是拖累整体运行效率(可能只有一半)。所以我考虑最终在 纳斯NASSE C246 ITX主板 只安装3块A2计算卡,另外通过QCuLink来连接1块 Nvidia Tesla P10 GPU运算卡 做延迟不敏感的 Stable Diffusion模型方法 以及OCR等工作。

备注

考虑 AMD Radeon Instinct MI50 是能耗怪兽,TDP高达300W,建议电源700W。当安装两块MI50时,我当时购买的利民TGFX-750W实际上非常勉强。为了能够稳定运行,一种思路是利旧自己在 HPE ProLiant DL380 Gen9服务器 配套的1400w服务器电源作为 eGPU服务器电源

Dell Precision T5820 工作站

不过,经过反复对比自组主机的稳定性和成本之后,我转向采用二手品牌工作站:

  • 只有主流品牌的工作站能够提供经久耐用的硬件以及稳定性,并且二手市场大量提供的品牌工作站能够找到同时满足多PCIe接口以及高容量的准系统主机,且可以利旧我之前在 HPE ProLiant DL380 Gen9服务器 投资的大量ECC DDR4内存

  • 要达到品牌工作站同样的容量、性能和扩展性,实际上组装主机的成本极高,甚至超过品牌工作站且无法保证稳定性和集成性

我最终选择了 Dell Precision T5820 工作站 作为我的机器学习和LLM工作站:

最终构想

构想中的兼容机安装GPU的连接
[ Intel CPU ]
   ├── PCIe Slot 1 (Gen3 x4) ───> Tesla A2 (16GB) ──┐
   ├── PCIe Slot 2 (Gen3 x4) ───> Tesla A2 (16GB) ──┼──> [48GB 黄金算力池] ──> 专攻 LLM (Qwen-35B Q8)
   ├── PCIe Slot 3 (Gen3 x8) ───> Tesla A2 (16GB) ──┘
   │
[ PCH 南桥 (DMI 3.0 x4) ]
   └── M.2 ──> OCuLink ─────────> Tesla P10 (24GB) ───────────> 专攻 编解码/图形/Stable Diffusion/后台OCR
构想中的T5820安装GPU的连接
[ Intel CPU ]
   ├── PCIe Slot 1 (Gen3 x16) ───> AMD MI50 (32GB) ──┐
   ├── PCIe Slot 2 (Gen3 x16) ───> AMD MI50 (32GB) ──┼──> [64GB 算力池] ──> 专攻 LLM (Llama-3.3-70B-Q6_K)
   │
[ PCH 南桥 (DMI 3.0 x4) ]
   └── PCIe slot 3 (Gen3 x4) ─────> Tesla P4 (8GB) ───────────> 专攻 编解码/图形/Stable Diffusion/后台OCR