Nvidia Tesla P10 GPU运算卡
疯狂的 挖矿
和 芯片荒
使得显卡已经成为技术工作者 生命无法承受之重 ,原本消费级别的 经济型
GTX 显卡,已经到了二手现价远超5年前发售上市价格。
我脑海中出现的就是 未来废土世界 - 疯狂的麦克斯4:狂暴之路 Mad Max: Fury Road (2015)
NVIDIA Tesla P10
Telsa P10是NVIDIA于2016年9月13日发布的专业图形卡,采用16 nm技术,基于 GP102 图形处理器。
GP102图形处理器是die面积高达471 mm²,包含了11,800 million (1亿1千8百万) 晶体管。
功能:
3840个 着色单元
240个 纹理映射单元
96个 ROP
硬件配置:
24 GB GDDR5X 内存 (384-bit内存接口,运行在1808 MHz,有效带宽 14.5 Gbps)
GPU主频 1025 MHz,boost频率达到 1493 MHz
Tesla P10是一个单插槽运算卡,长度 267 mm / 宽度 97 mm,使用 PCIe 3.0 x16 接口,这恰好是我购买的二手 HPE ProLiant DL360 Gen9服务器 能够安装的规格(1U服务器),这也是我能够找到经济上可以承受同时能够安装到1U服务器的GPU卡。
神奇之P10
Tesla P10是一块 隐形运算卡
,你在网上几乎找不到资料,虽然同属 NVIDIA Tesla 系列,但是我们常见的有 Tesla P40 24GB
和 Tesla P199 12GB
,同属Pascal 微架构
备注
Tesla P10
相当于同规格 Tesla P40
的降频版本,内核完全一致
还有一个可以印证 Tesla P10
是 Tesla P40
的 限制版 的方式,是我在实践 NVIDIA Virtual GPU (vGPU) 安装NVIDIA Virtual GPU Manager ,当执行 mdevctl types
检查时,可以看到 P10 的 vGPU 核心显示为 P40
0000:82:00.0
nvidia-156
Available instances: 12
Device API: vfio-pci
Name: GRID P40-2B
Description: num_heads=4, frl_config=45, framebuffer=2048M, max_resolution=5120x2880, max_instance=12
nvidia-215
Available instances: 12
Device API: vfio-pci
Name: GRID P40-2B4
Description: num_heads=4, frl_config=45, framebuffer=2048M, max_resolution=5120x2880, max_instance=12
nvidia-241
...
技术规格
Tesla P10 |
Tesla P40 |
Tesla P100 |
GeForce GTX 1080 Ti |
|
---|---|---|---|---|
发布日 |
2016/9/13 |
2016/9/13 |
2016/6/20 |
2017/3/10 |
系列 |
Tesla |
Tesla |
Tesla |
Tesla |
接口 |
PCIe 3.0 x16 |
PCIe 3.0 x16 |
PCIe 3.0 x16 |
PCIe 3.0 x16 |
GPU |
GP102 |
GP102 |
GP100 |
GP102 |
架构 |
Pascal |
Pascal |
Pascal |
Pascal |
工艺 |
16 nm |
16 nm |
16 nm |
16 nm |
晶体管数 |
11,800 million |
11,800 million |
15,300 million |
11,800 million |
GPU裸片面积 |
471 mm² |
471 mm² |
610 mm² |
471 mm² |
基准主频 |
1025 MHz |
1303 MHz |
1190 MHz |
1481 MHz |
Boost主频 |
1493 MHz |
1531 MHz |
1329 MHz |
1582 MHz |
内存主频 |
1808 MHz 14.5 Gbps |
1808 MHz 14.5 Gbps |
715 MHz 1430 Mbps |
1376 MHz 11 Gbps |
内存大小 |
24 GB |
24 GB |
16 GB |
11 GB |
内存类型 |
GDDR5X |
GDDR5X |
HBM2 |
GDDR5X |
内存总线 |
384 bit |
384 bit |
4096 bit |
352 bit |
内存带宽 |
694.3 GB/s |
694.3 GB/s |
732.2 GB/s |
484.4 GB/s |
着色单元 |
3840 |
3840 |
3584 |
3584 |
纹理映射单元 |
240 |
240 |
224 |
224 |
ROP |
96 |
96 |
96 |
88 |
L1 缓存 |
48 KB(per SM) |
48 KB(per SM) |
24 KB (per SM) |
48 KB(per SM) |
L2 缓存 |
3 MB |
3 MB |
4 MB |
2.75 MB |
主板插槽 |
单插槽 |
双插槽 |
双插槽 |
双插槽 |
长度 |
267 mm |
267 mm |
267 mm |
267 mm |
宽度 |
97 mm |
111 mm |
112 mm |
112 mm |
厚度 |
20 mm |
40 mm |
40mm |
40 mm |
TDP |
250 W |
250 W |
250 W |
250 W |
建议电源 |
600 W |
600 W |
600 W |
600 W |
显示输出 |
无 |
无 |
无 |
1x HDMI 3x DisplayPort |
电源连接 |
1x 8-pin |
1x 6-pin + 1x 8-pin |
1x 8-pin |
1x 6-pin + 1x 8-pin |
主板编号 |
PG610 SKU 210 |
PG610 SKU 210 |
PH400 SKU 201 |
PG611 SKU 50 |
DirectX |
12 (12_1) |
12 (12_1) |
12 (12_1) |
12 (12_1) |
OpenGL |
4.6 |
4.6 |
4.6 |
4.6 |
OpenCL |
3.0 |
3.0 |
3.0 |
3.0 |
Vulkan |
1.3 |
1.3 |
1.3 |
1.3 |
CUDA |
6.1 |
6.1 |
6.0 |
6.1 |
Shader Model |
6.4 |
6.4 |
6.0 |
6.4 |
Pixel Rate |
143.3 GPixel/s |
147.0 GPixel/s |
127.6 GPixel/s |
139.2 GPixel/s |
Texture Rate |
358.3 GTexel/s |
367.4 GTexel/s |
297.7 GTexel/s |
354.4 GTexel/s |
FP16 (half) performance |
179.2 GFLOPS (1:64) |
183.7 GFLOPS (1:64) |
19.05 TFLOPS (2:1) |
177.2 GFLOPS (1:64) |
FP32 (float) performance |
11.47 TFLOPS |
11.76 TFLOPS |
9.526 TFLOPS |
11.34 TFLOPS |
FP64 (double) performance |
358.3 GFLOPS (1:32) |
367.4 GFLOPS (1:32) |
4.763 TFLOPS (1:2) |
354.4 GFLOPS (1:32) |
Tesla P10 和 GeForce GTX 1080 Ti 采用了相同的GPU核心 GP102 ,也就是 Pascal 架构,工艺和技术参数几乎相同,主要差异:
P10 GPU主频降到 1025 MHz (Boost 1493 MHz),比侧重游戏和图形应用的 1080 Ti 低了 30% ,虽然在渲染、游戏上会差很多,但是也带来了极佳的低温散热,所以 P10 的优势是
刀卡
(只需要1个插槽) 而且是被动散热P10 通过提高内存主频(带宽)以及加大内存大小来提升性能,内存带宽比 1080 Ti 高了 32% ,同时 P10 增加了 7~9% 的(着色、纹理映射、ROP)处理单元,这使得两者的性能评分非常接近
其他差异是 P10 没有显示输出,是纯粹的数据中心运算卡,无法用于3D游戏加速,也不能用于挖矿(算力是个位数),所以这也是同样性能的 Tesla P10 在当前
疯狂时期
二手售价仅为 GeForce GTX 1080 Ti 的 1/5 的原因之一(GTX 1080 Ti二手价格被炒高了)Tesla P10 和 Tesla P40 的GPU核心以及参数基本相同,差异仅在于主频,P40通过提高主频性能得到少量提升,以
Radeon RX 6600 XT
为参照,P40的性能比P10提高了3%。不过,P40是双插槽GPU运算卡,散热要好于P10,但是也要求更大的机箱空间
备注
我使用的二手 HPE ProLiant DL360 Gen9服务器 是1U服务器,内部空间狭窄,无法安装双槽GPU卡,所以Tesla P10是少数能够安装且价格较为低廉的运算卡。
我准备采用这块GPU运算卡实现 Sigle Root I/O Virtualization(SR-IOV) 虚拟化运行,具体实践后续补充
安装
物理安装见 HPE DL360 Gen9安装NVIDIA Tesla P10运算卡 ,这是一个 一波三折
的折腾经历!!!