Nvidia Tesla P10 GPU运算卡

疯狂的 挖矿 和 芯片荒 使得显卡已经成为技术工作者生命无法承受之重，原本消费级别的 经济型 GTX 显卡，已经到了二手现价远超5年前发售上市价格。

我脑海中出现的就是 未来废土世界 - 疯狂的麦克斯4：狂暴之路 Mad Max: Fury Road (2015)

NVIDIA Tesla P10

Telsa P10是NVIDIA于2016年9月13日发布的专业图形卡，采用16 nm技术，基于 GP102 图形处理器。

GP102图形处理器是die面积高达471 mm²，包含了11,800 million (118亿) 晶体管。

功能:

3840个着色单元
240个纹理映射单元
96个 ROP

硬件配置:

24 GB GDDR5X 内存 (384-bit内存接口，运行在1808 MHz，有效带宽 14.5 Gbps)
GPU主频 1025 MHz，boost频率达到 1493 MHz

Tesla P10是一个单插槽运算卡，长度 267 mm / 宽度 97 mm，使用 PCIe 3.0 x16 接口，这恰好是我购买的二手 HPE ProLiant DL360 Gen9服务器能够安装的规格(1U服务器)，这也是我能够找到经济上可以承受同时能够安装到1U服务器的GPU卡。

神奇之P10

Tesla P10是一块 隐形运算卡 ，你在网上几乎找不到资料，虽然同属 NVIDIA Tesla 系列，但是我们常见的有 Tesla P40 24GB 和 Tesla P199 12GB ，同属Pascal 微架构

备注

Tesla P10 相当于同规格 Tesla P40 的降频版本，内核完全一致

还有一个可以印证 Tesla P10 是 Tesla P40 的 限制版 的方式，是我在实践 NVIDIA Virtual GPU (vGPU) 安装NVIDIA Virtual GPU Manager ，当执行 mdevctl types 检查时，可以看到 P10 的 vGPU 核心显示为 P40

0000:82:00.0
  nvidia-156
    Available instances: 12
    Device API: vfio-pci
    Name: GRID P40-2B
    Description: num_heads=4, frl_config=45, framebuffer=2048M, max_resolution=5120x2880, max_instance=12
  nvidia-215
    Available instances: 12
    Device API: vfio-pci
    Name: GRID P40-2B4
    Description: num_heads=4, frl_config=45, framebuffer=2048M, max_resolution=5120x2880, max_instance=12
  nvidia-241
...

技术规格

Tesla P10 vs. P40 vs. P100 vs. GeForce GTX 1080 Ti
	Tesla P10	Tesla P40	Tesla P100	GeForce GTX 1080 Ti
发布日	2016/9/13	2016/9/13	2016/6/20	2017/3/10
系列	Tesla	Tesla	Tesla	Tesla
接口	PCIe 3.0 x16	PCIe 3.0 x16	PCIe 3.0 x16	PCIe 3.0 x16
GPU	GP102	GP102	GP100	GP102
架构	Pascal	Pascal	Pascal	Pascal
工艺	16 nm	16 nm	16 nm	16 nm
晶体管数	11,800 million	11,800 million	15,300 million	11,800 million
GPU裸片面积	471 mm²	471 mm²	610 mm²	471 mm²
基准主频	1025 MHz	1303 MHz	1190 MHz	1481 MHz
Boost主频	1493 MHz	1531 MHz	1329 MHz	1582 MHz
内存主频	1808 MHz 14.5 Gbps	1808 MHz 14.5 Gbps	715 MHz 1430 Mbps	1376 MHz 11 Gbps
内存大小	24 GB	24 GB	16 GB	11 GB
内存类型	GDDR5X	GDDR5X	HBM2	GDDR5X
内存总线	384 bit	384 bit	4096 bit	352 bit
内存带宽	694.3 GB/s	694.3 GB/s	732.2 GB/s	484.4 GB/s
着色单元	3840	3840	3584	3584
纹理映射单元	240	240	224	224
ROP	96	96	96	88
L1 缓存	48 KB(per SM)	48 KB(per SM)	24 KB (per SM)	48 KB(per SM)
L2 缓存	3 MB	3 MB	4 MB	2.75 MB
主板插槽	单插槽	双插槽	双插槽	双插槽
长度	267 mm	267 mm	267 mm	267 mm
宽度	97 mm	111 mm	112 mm	112 mm
厚度	20 mm	40 mm	40mm	40 mm
TDP	250 W	250 W	250 W	250 W
建议电源	600 W	600 W	600 W	600 W
显示输出	无	无	无	1x HDMI 3x DisplayPort
电源连接	1x 8-pin	1x 6-pin + 1x 8-pin	1x 8-pin	1x 6-pin + 1x 8-pin
主板编号	PG610 SKU 210	PG610 SKU 210	PH400 SKU 201	PG611 SKU 50
DirectX	12 (12_1)	12 (12_1)	12 (12_1)	12 (12_1)
OpenGL	4.6	4.6	4.6	4.6
OpenCL	3.0	3.0	3.0	3.0
Vulkan	1.3	1.3	1.3	1.3
CUDA	6.1	6.1	6.0	6.1
Shader Model	6.4	6.4	6.0	6.4
Pixel Rate	143.3 GPixel/s	147.0 GPixel/s	127.6 GPixel/s	139.2 GPixel/s
Texture Rate	358.3 GTexel/s	367.4 GTexel/s	297.7 GTexel/s	354.4 GTexel/s
FP16 (half) performance	179.2 GFLOPS (1:64)	183.7 GFLOPS (1:64)	19.05 TFLOPS (2:1)	177.2 GFLOPS (1:64)
FP32 (float) performance	11.47 TFLOPS	11.76 TFLOPS	9.526 TFLOPS	11.34 TFLOPS
FP64 (double) performance	358.3 GFLOPS (1:32)	367.4 GFLOPS (1:32)	4.763 TFLOPS (1:2)	354.4 GFLOPS (1:32)

Tesla P10 和 GeForce GTX 1080 Ti 采用了相同的GPU核心 GP102 ，也就是 Pascal 架构，工艺和技术参数几乎相同，主要差异:

P10 GPU主频降到 1025 MHz (Boost 1493 MHz)，比侧重游戏和图形应用的 1080 Ti 低了 30% ，虽然在渲染、游戏上会差很多，但是也带来了极佳的低温散热，所以 P10 的优势是 刀卡 (只需要1个插槽) 而且是被动散热
P10 通过提高内存主频(带宽)以及加大内存大小来提升性能，内存带宽比 1080 Ti 高了 32% ，同时 P10 增加了 7~9% 的(着色、纹理映射、ROP)处理单元，这使得两者的性能评分非常接近

其他差异是 P10 没有显示输出，是纯粹的数据中心运算卡，无法用于3D游戏加速，也不能用于挖矿(算力是个位数)，所以这也是同样性能的 Tesla P10 在当前 疯狂时期 二手售价仅为 GeForce GTX 1080 Ti 的 1/5 的原因之一(GTX 1080 Ti二手价格被炒高了)
Tesla P10 和 Tesla P40 的GPU核心以及参数基本相同，差异仅在于主频，P40通过提高主频性能得到少量提升，以 Radeon RX 6600 XT 为参照，P40的性能比P10提高了3%。不过，P40是双插槽GPU运算卡，散热要好于P10，但是也要求更大的机箱空间

备注

我使用的二手 HPE ProLiant DL360 Gen9服务器是1U服务器，内部空间狭窄，无法安装双槽GPU卡，所以Tesla P10是少数能够安装且价格较为低廉的运算卡。

我准备采用这块GPU运算卡实现 Sigle Root I/O Virtualization(SR-IOV) 虚拟化运行，具体实践后续补充

安装

物理安装见 HPE DL360 Gen9安装NVIDIA Tesla P10运算卡，这是一个 一波三折 的折腾经历!!!

Nvidia Tesla P10 GPU运算卡

NVIDIA Tesla P10

神奇之P10

技术规格

安装

参考