Nvidia Tesla P10 GPU运算卡

疯狂的 挖矿芯片荒 使得显卡已经成为技术工作者 生命无法承受之重 ,原本消费级别的 经济型 GTX 显卡,已经到了二手现价远超5年前发售上市价格。

我脑海中出现的就是 未来废土世界 - 疯狂的麦克斯4:狂暴之路 Mad Max: Fury Road (2015)

../../_images/mad_max.jpg

NVIDIA Tesla P10

Telsa P10是NVIDIA于2016年9月13日发布的专业图形卡,采用16 nm技术,基于 GP102 图形处理器。

GP102图形处理器是die面积高达471 mm²,包含了11,800 million (1亿1千8百万) 晶体管。

功能:

  • 3840个 着色单元
  • 240个 纹理映射单元
  • 96个 ROP

硬件配置:

  • 24 GB GDDR5X 内存 (384-bit内存接口,运行在1808 MHz,有效带宽 14.5 Gbps)
  • GPU主频 1025 MHz,boost频率达到 1493 MHz

Tesla P10是一个单插槽运算卡,长度 267 mm / 宽度 97 mm,使用 PCIe 3.0 x16 接口,这恰好是我购买的二手 HPE ProLiant DL360 Gen9服务器 能够安装的规格(1U服务器),这也是我能够找到经济上可以承受同时能够安装到1U服务器的GPU卡。

../../_images/tesla_p10.jpg
../../_images/tesla_p10_back.jpg

神奇之P10

Tesla P10是一块 隐形运算卡 ,你在网上几乎找不到资料,虽然同属 NVIDIA Tesla 系列,但是我们常见的有 Tesla P40 24GBTesla P199 12GB ,同属Pascal 微架构

注解

Tesla P10 相当于同规格 Tesla P40 的降频版本,内核完全一致

技术规格

Tesla P10 vs. GeForce GTX 1080 Ti
  Tesla P10 Tesla P40 GeForce GTX 1080 Ti
发布日 2016/9/13 2016/9/13 2017/3/10
系列 Tesla Tesla Tesla
接口 PCIe 3.0 x16 PCIe 3.0 x16 PCIe 3.0 x16
GPU GP102 GP102 GP102
架构 Pascal Pascal Pascal
工艺 16 nm 16 nm 16 nm
晶体管数 11,800 million 11,800 million 11,800 million
基准主频 1025 MHz 1303 MHz 1481 MHz
Boost主频 1493 MHz 1531 MHz 1582 MHz
内存主频 1808 MHz 14.5 Gbps 1808 MHz 14.5 Gbps 1376 MHz 11 Gbps
内存大小 24 GB 24 GB 11 GB
内存类型 GDDR5X GDDR5X GDDR5X
内存总线 384 bit 384 bit 352 bit
内存带宽 694.3 GB/s 694.3 GB/s 484.4 GB/s
着色单元 3840 3840 3584
纹理映射单元 240 240 224
ROP 96 96 88
L1 缓存 48 KB(per SM) 48 KB(per SM) 48 KB(per SM)
L2 缓存 3 MB 3 MB 2.75 MB
主板插槽 单插槽 双插槽 双插槽
长度 267 mm 267 mm 267 mm
宽度 97 mm 111 mm 112 mm
厚度 20 mm 40 mm 40 mm
TDP 250 W 250 W 250 W
建议电源 600 W 600 W 600 W
显示输出 1x HDMI 3x DisplayPort
电源连接 1x 8-pin 1x 6-pin + 1x 8-pin 1x 6-pin + 1x 8-pin
主板编号 PG610 SKU 210 PG610 SKU 210 PG611 SKU 50
DirectX 12 (12_1) 12 (12_1) 12 (12_1)
OpenGL 4.6 4.6 4.6
OpenCL 3.0 3.0 3.0
Vulkan 1.2 1.2 1.2
CUDA 6.1 6.1 6.1
Shader Model 6.4 6.4 6.4
Pixel Rate 143.3 GPixel/s 147.0 GPixel/s 139.2 GPixel/s
Texture Rate 358.3 GTexel/s 367.4 GTexel/s 354.4 GTexel/s
FP16 (half) performance 179.2 GFLOPS (1:64) 183.7 GFLOPS (1:64) 177.2 GFLOPS (1:64)
FP32 (float) performance 11.47 TFLOPS 11.76 TFLOPS 11.34 TFLOPS
FP64 (double) performance 358.3 GFLOPS (1:32) 367.4 GFLOPS (1:32) 354.4 GFLOPS (1:32)

Tesla P10 和 GeForce GTX 1080 Ti 采用了相同的GPU核心 GP102 ,也就是 Pascal 架构,工艺和技术参数几乎相同,主要差异:

  • P10 GPU主频降到 1025 MHz (Boost 1493 MHz),比侧重游戏和图形应用的 1080 Ti 低了 30% ,虽然在渲染、游戏上会差很多,但是也带来了极佳的低温散热,所以 P10 的优势是 刀卡 (只需要1个插槽) 而且是被动散热
  • P10 通过提高内存主频(带宽)以及加大内存大小来提升性能,内存带宽比 1080 Ti 高了 32% ,同时 P10 增加了 7~9% 的(着色、纹理映射、ROP)处理单元,这使得两者的性能评分非常接近
../../_images/p10_1080_ti.png
  • 其他差异是 P10 没有显示输出,是纯粹的数据中心运算卡,无法用于3D游戏加速,也不能用于挖矿(算力是个位数),所以这也是同样性能的 Tesla P10 在当前 疯狂时期 二手售价仅为 GeForce GTX 1080 Ti 的 1/5 的原因之一(GTX 1080 Ti二手价格被炒高了)
  • Tesla P10 和 Tesla P40 的GPU核心以及参数基本相同,差异仅在于主频,P40通过提高主频性能得到少量提升,以 Radeon RX 6600 XT 为参照,P40的性能比P10提高了3%。不过,P40是双插槽GPU运算卡,散热要好于P10,但是也要求更大的机箱空间
../../_images/p40.png

注解

我使用的二手 HPE ProLiant DL360 Gen9服务器 是1U服务器,内部空间狭窄,无法安装双槽GPU卡,所以Tesla P10是少数能够安装且价格较为低廉的运算卡。

我准备采用这块GPU运算卡实现 SR-IOV 虚拟化运行,具体实践后续补充

安装

物理安装见 HPE DL360 Gen9安装NVIDIA Tesla P10运算卡 ,这是一个 一波三折 的折腾经历!!!