Nvidia Tesla P100 GPU运算卡

NVidia Tesla P100 PCIe 16 GB 是 NVIDIA 于 2016 年 6 月 20 日推出数据中心计算卡:

  • 16nm工艺

  • 基于 GP100 图形处理器,其 GP100-893-A1 变体为 支持 DirectX 12

  • 大型芯片,裸片面积为 610 平方毫米,拥有 1.53 亿个晶体管

  • 3584 个着色单元、224 个纹理映射单元和 96 个 ROP

  • 16 GB HBM2 内存,4096 位内存接口连接

  • GPU 的运行频率为 1190 MHz,最高可提升至 1329 MHz,内存运行频率为 715 MHz

P40 vs. P100

P40( Nvidia Tesla P10 GPU运算卡 ) 和 P100 都采用了相同的 Pascal微架构,同属Telsa数据中心运算卡系列,然而这两块卡定位上是不同的:

  • P40具有更多CUDA core以及更快的时钟速度,但是P100的高速内存带宽远超P40(P100的732GB/s vs P40的480GB/s)

  • P100适合训练(提供FP16以及更快的内存带宽),P40/P4适合推理(备更快的int8能力):

    • P100适合训练 - 专为机器学习训练而涉及,针对更密集的计算进行优化,例如制作 LoRA/嵌入/微调模型等,可以

    • P40适合推理 - 针对需要快速分析大量数据的应用程序进行性能优化,非常适合图像识别和自然语言处理等应用

  • 两者上市时起始售价相同($5699),但是目前在二手市场上 P100(1450元)略胜P40(1300元)一筹 大家对P40的24G显存更为看中,短短一周时间P40已经卖断货导致P40售价飙升到1600元反超P100(1450元),疯了…

Tesla P10 vs. P40 vs. P100 vs. GeForce GTX 1080 Ti

Tesla P10

Tesla P40

Tesla P100

GeForce GTX 1080 Ti

发布日

2016/9/13

2016/9/13

2016/6/20

2017/3/10

系列

Tesla

Tesla

Tesla

Tesla

接口

PCIe 3.0 x16

PCIe 3.0 x16

PCIe 3.0 x16

PCIe 3.0 x16

GPU

GP102

GP102

GP100

GP102

架构

Pascal

Pascal

Pascal

Pascal

工艺

16 nm

16 nm

16 nm

16 nm

晶体管数

11,800 million

11,800 million

15,300 million

11,800 million

GPU裸片面积

471 mm²

471 mm²

610 mm²

471 mm²

基准主频

1025 MHz

1303 MHz

1190 MHz

1481 MHz

Boost主频

1493 MHz

1531 MHz

1329 MHz

1582 MHz

内存主频

1808 MHz 14.5 Gbps

1808 MHz 14.5 Gbps

715 MHz 1430 Mbps

1376 MHz 11 Gbps

内存大小

24 GB

24 GB

16 GB

11 GB

内存类型

GDDR5X

GDDR5X

HBM2

GDDR5X

内存总线

384 bit

384 bit

4096 bit

352 bit

内存带宽

694.3 GB/s

694.3 GB/s

732.2 GB/s

484.4 GB/s

着色单元

3840

3840

3584

3584

纹理映射单元

240

240

224

224

ROP

96

96

96

88

L1 缓存

48 KB(per SM)

48 KB(per SM)

24 KB (per SM)

48 KB(per SM)

L2 缓存

3 MB

3 MB

4 MB

2.75 MB

主板插槽

单插槽

双插槽

双插槽

双插槽

长度

267 mm

267 mm

267 mm

267 mm

宽度

97 mm

111 mm

112 mm

112 mm

厚度

20 mm

40 mm

40mm

40 mm

TDP

250 W

250 W

250 W

250 W

建议电源

600 W

600 W

600 W

600 W

显示输出

1x HDMI 3x DisplayPort

电源连接

1x 8-pin

1x 6-pin + 1x 8-pin

1x 8-pin

1x 6-pin + 1x 8-pin

主板编号

PG610 SKU 210

PG610 SKU 210

PH400 SKU 201

PG611 SKU 50

DirectX

12 (12_1)

12 (12_1)

12 (12_1)

12 (12_1)

OpenGL

4.6

4.6

4.6

4.6

OpenCL

3.0

3.0

3.0

3.0

Vulkan

1.3

1.3

1.3

1.3

CUDA

6.1

6.1

6.0

6.1

Shader Model

6.4

6.4

6.0

6.4

Pixel Rate

143.3 GPixel/s

147.0 GPixel/s

127.6 GPixel/s

139.2 GPixel/s

Texture Rate

358.3 GTexel/s

367.4 GTexel/s

297.7 GTexel/s

354.4 GTexel/s

FP16 (half) performance

179.2 GFLOPS (1:64)

183.7 GFLOPS (1:64)

19.05 TFLOPS (2:1)

177.2 GFLOPS (1:64)

FP32 (float) performance

11.47 TFLOPS

11.76 TFLOPS

9.526 TFLOPS

11.34 TFLOPS

FP64 (double) performance

358.3 GFLOPS (1:32)

367.4 GFLOPS (1:32)

4.763 TFLOPS (1:2)

354.4 GFLOPS (1:32)

备注

ChartGPT的狂潮愈演愈烈,现在二手GPU卡的售价不断上升,甚至赶超了当年的挖矿

参考