思考机器

我最初采用 HPE ProLiant DL380 Gen9服务器来安装运行 NVIDIA Tesla A2 GPU运算卡和 AMD Radeon Instinct MI50 ，但是DL380这样的机架式服务器噪音极大，在家中使用非常不便。

我后来想采用自己组装台式机来降低噪音，类似 HP Z8 G4工作站那样(虽然我也尝试过Z8，但是太贵了而且运气不好买到了存在硬件缺陷的准主机，最后放弃)能够同时兼顾多GPU且静音的主机。

虽然最初我的想法比较模糊，我只考虑到体积小巧，选购了纳斯NASSE C246 ITX主板，确实存在PCIe扩展限制。

2块 AMD Radeon Instinct MI50
2块 NVIDIA Tesla A2 GPU运算卡

备注

目前我投入资金的GPU最佳性能硬件是 AMD Radeon Instinct MI50 和 NVIDIA Tesla A2 GPU运算卡，通过改造硬件来实现现有硬件投入的充分利用。

硬件

组装机

纳斯NASSE C246 ITX主板的主板虽然只有 1个PCIe 3.0接口 ，但是通过 GPU相关BIOS设置设置，能够将一个PCIe x16通过 PCIe bifurcation 拆分成 x4x4x8 实现连接 3个PCIe设备

那么第4个GPU设备是如何连接到纳斯NASSE C246 ITX主板主板的呢?

答案就是 OCuLink 连接到纳斯NASSE C246 ITX主板的一个 M2 接口上，采用很久以前树莓派外接GPU实现机器学习架构实践时购买的外接eGPU转接卡实现: Nvidia Tesla P10 GPU运算卡

但是上述架构有一个隐含的缺陷，在低端台式机上，兼容主板只支持1条PCI3 3.0的x16，通过 PCIe bifurcation 能够获得 x4x4x8 的3个插槽，但是也就止步于此。主板通过PCH南桥能够获得大约x4的带宽，但是是分配给2个 m.2 接口使用，虽然我购买了 OCuLink 扩展卡，理论上能够再多接2块GPU，但是实际上由于PCH南桥 x4 带宽共享给2个GPU，会出现带宽争抢。而且当采用5块A2并行推理，实际上有2块A2是拖累整体运行效率(可能只有一半)。所以我考虑最终在纳斯NASSE C246 ITX主板只安装3块A2计算卡，另外通过QCuLink来连接1块 Nvidia Tesla P10 GPU运算卡做延迟不敏感的 Stable Diffusion模型方法以及OCR等工作。

备注

考虑 AMD Radeon Instinct MI50 是能耗怪兽，TDP高达300W，建议电源700W。当安装两块MI50时，我当时购买的利民TGFX-750W实际上非常勉强。为了能够稳定运行，一种思路是利旧自己在 HPE ProLiant DL380 Gen9服务器配套的1400w服务器电源作为 eGPU服务器电源

Dell Precision T5820 工作站 

不过，经过反复对比自组主机的稳定性和成本之后，我转向采用二手品牌工作站:

只有主流品牌的工作站能够提供经久耐用的硬件以及稳定性，并且二手市场大量提供的品牌工作站能够找到同时满足多PCIe接口以及高容量的准系统主机，且可以利旧我之前在 HPE ProLiant DL380 Gen9服务器投资的大量ECC DDR4内存
要达到品牌工作站同样的容量、性能和扩展性，实际上组装主机的成本极高，甚至超过品牌工作站且无法保证稳定性和集成性

我最终选择了 Dell Precision T5820 工作站作为我的机器学习和LLM工作站:

通过主机提供的多PCIe接口以及扩展，加上品牌工作站950W容量电源，理论上可以支持双 AMD Radeon Instinct MI50 和双 NVIDIA Tesla A2 GPU运算卡同时工作
(放弃，实际发现没有官方资料显示支持，论坛上的讨论无疾而终)通过主板集成的 PCIe bifurcation 功能将单个PCIe插槽拆分为支持4块铠侠KIOXIA EXCERIA G2 NVMe SSD存储，以便能够实践RDMA、NVMe over TCP等存储技术

最终构想

纳斯NASSE C246 ITX主板兼容主机:

构想中的兼容机安装GPU的连接

[ Intel CPU ]
   ├── PCIe Slot 1 (Gen3 x4) ───> Tesla A2 (16GB) ──┐
   ├── PCIe Slot 2 (Gen3 x4) ───> Tesla A2 (16GB) ──┼──> [48GB 黄金算力池] ──> 专攻 LLM (Qwen-35B Q8)
   ├── PCIe Slot 3 (Gen3 x8) ───> Tesla A2 (16GB) ──┘
   │
[ PCH 南桥 (DMI 3.0 x4) ]
   └── M.2 ──> OCuLink ─────────> Tesla P10 (24GB) ───────────> 专攻 编解码/图形/Stable Diffusion/后台OCR

Dell Precision T5820 工作站 :

构想中的T5820安装GPU的连接

[ Intel CPU ]
   ├── PCIe Slot 1 (Gen3 x16) ───> AMD MI50 (32GB) ──┐
   ├── PCIe Slot 2 (Gen3 x16) ───> AMD MI50 (32GB) ──┼──> [64GB 算力池] ──> 专攻 LLM (Llama-3.3-70B-Q6_K)
   │
[ PCH 南桥 (DMI 3.0 x4) ]
   └── PCIe slot 3 (Gen3 x4) ─────> Tesla P4 (8GB) ───────────> 专攻 编解码/图形/Stable Diffusion/后台OCR

思考机器

硬件

组装机

Dell Precision T5820 工作站

最终构想

Dell Precision T5820 工作站 