Nvidia Tesla P10 GPU运算卡

疯狂的 挖矿芯片荒 使得显卡已经成为技术工作者 生命无法承受之重 ,原本消费级别的 经济型 GTX 显卡,已经到了二手现价远超5年前发售上市价格。

我脑海中出现的就是 未来废土世界 - 疯狂的麦克斯4:狂暴之路 Mad Max: Fury Road (2015)

../../_images/mad_max.jpg

NVIDIA Tesla P10

Telsa P10是NVIDIA于2016年9月13日发布的专业图形卡,采用16 nm技术,基于 GP102 图形处理器。

GP102图形处理器是die面积高达471 mm²,包含了11,800 million (1亿1千8百万) 晶体管。

功能:

  • 3840个 着色单元

  • 240个 纹理映射单元

  • 96个 ROP

硬件配置:

  • 24 GB GDDR5X 内存 (384-bit内存接口,运行在1808 MHz,有效带宽 14.5 Gbps)

  • GPU主频 1025 MHz,boost频率达到 1493 MHz

Tesla P10是一个单插槽运算卡,长度 267 mm / 宽度 97 mm,使用 PCIe 3.0 x16 接口,这恰好是我购买的二手 HPE ProLiant DL360 Gen9服务器 能够安装的规格(1U服务器),这也是我能够找到经济上可以承受同时能够安装到1U服务器的GPU卡。

../../_images/tesla_p10.jpg
../../_images/tesla_p10_back.jpg

神奇之P10

Tesla P10是一块 隐形运算卡 ,你在网上几乎找不到资料,虽然同属 NVIDIA Tesla 系列,但是我们常见的有 Tesla P40 24GBTesla P199 12GB ,同属Pascal 微架构

注解

Tesla P10 相当于同规格 Tesla P40 的降频版本,内核完全一致

技术规格

Tesla P10 vs. GeForce GTX 1080 Ti

Tesla P10

Tesla P40

GeForce GTX 1080 Ti

发布日

2016/9/13

2016/9/13

2017/3/10

系列

Tesla

Tesla

Tesla

接口

PCIe 3.0 x16

PCIe 3.0 x16

PCIe 3.0 x16

GPU

GP102

GP102

GP102

架构

Pascal

Pascal

Pascal

工艺

16 nm

16 nm

16 nm

晶体管数

11,800 million

11,800 million

11,800 million

基准主频

1025 MHz

1303 MHz

1481 MHz

Boost主频

1493 MHz

1531 MHz

1582 MHz

内存主频

1808 MHz 14.5 Gbps

1808 MHz 14.5 Gbps

1376 MHz 11 Gbps

内存大小

24 GB

24 GB

11 GB

内存类型

GDDR5X

GDDR5X

GDDR5X

内存总线

384 bit

384 bit

352 bit

内存带宽

694.3 GB/s

694.3 GB/s

484.4 GB/s

着色单元

3840

3840

3584

纹理映射单元

240

240

224

ROP

96

96

88

L1 缓存

48 KB(per SM)

48 KB(per SM)

48 KB(per SM)

L2 缓存

3 MB

3 MB

2.75 MB

主板插槽

单插槽

双插槽

双插槽

长度

267 mm

267 mm

267 mm

宽度

97 mm

111 mm

112 mm

厚度

20 mm

40 mm

40 mm

TDP

250 W

250 W

250 W

建议电源

600 W

600 W

600 W

显示输出

1x HDMI 3x DisplayPort

电源连接

1x 8-pin

1x 6-pin + 1x 8-pin

1x 6-pin + 1x 8-pin

主板编号

PG610 SKU 210

PG610 SKU 210

PG611 SKU 50

DirectX

12 (12_1)

12 (12_1)

12 (12_1)

OpenGL

4.6

4.6

4.6

OpenCL

3.0

3.0

3.0

Vulkan

1.2

1.2

1.2

CUDA

6.1

6.1

6.1

Shader Model

6.4

6.4

6.4

Pixel Rate

143.3 GPixel/s

147.0 GPixel/s

139.2 GPixel/s

Texture Rate

358.3 GTexel/s

367.4 GTexel/s

354.4 GTexel/s

FP16 (half) performance

179.2 GFLOPS (1:64)

183.7 GFLOPS (1:64)

177.2 GFLOPS (1:64)

FP32 (float) performance

11.47 TFLOPS

11.76 TFLOPS

11.34 TFLOPS

FP64 (double) performance

358.3 GFLOPS (1:32)

367.4 GFLOPS (1:32)

354.4 GFLOPS (1:32)

Tesla P10 和 GeForce GTX 1080 Ti 采用了相同的GPU核心 GP102 ,也就是 Pascal 架构,工艺和技术参数几乎相同,主要差异:

  • P10 GPU主频降到 1025 MHz (Boost 1493 MHz),比侧重游戏和图形应用的 1080 Ti 低了 30% ,虽然在渲染、游戏上会差很多,但是也带来了极佳的低温散热,所以 P10 的优势是 刀卡 (只需要1个插槽) 而且是被动散热

  • P10 通过提高内存主频(带宽)以及加大内存大小来提升性能,内存带宽比 1080 Ti 高了 32% ,同时 P10 增加了 7~9% 的(着色、纹理映射、ROP)处理单元,这使得两者的性能评分非常接近

../../_images/p10_1080_ti.png
  • 其他差异是 P10 没有显示输出,是纯粹的数据中心运算卡,无法用于3D游戏加速,也不能用于挖矿(算力是个位数),所以这也是同样性能的 Tesla P10 在当前 疯狂时期 二手售价仅为 GeForce GTX 1080 Ti 的 1/5 的原因之一(GTX 1080 Ti二手价格被炒高了)

  • Tesla P10 和 Tesla P40 的GPU核心以及参数基本相同,差异仅在于主频,P40通过提高主频性能得到少量提升,以 Radeon RX 6600 XT 为参照,P40的性能比P10提高了3%。不过,P40是双插槽GPU运算卡,散热要好于P10,但是也要求更大的机箱空间

../../_images/p40.png

注解

我使用的二手 HPE ProLiant DL360 Gen9服务器 是1U服务器,内部空间狭窄,无法安装双槽GPU卡,所以Tesla P10是少数能够安装且价格较为低廉的运算卡。

我准备采用这块GPU运算卡实现 SR-IOV 虚拟化运行,具体实践后续补充

安装

物理安装见 HPE DL360 Gen9安装NVIDIA Tesla P10运算卡 ,这是一个 一波三折 的折腾经历!!!

参考