Nvidia Tesla P100 GPU运算卡¶
NVidia Tesla P100 PCIe 16 GB 是 NVIDIA 于 2016 年 6 月 20 日推出数据中心计算卡:
16nm工艺
基于 GP100 图形处理器,其 GP100-893-A1 变体为 支持 DirectX 12
大型芯片,裸片面积为 610 平方毫米,拥有 1.53 亿个晶体管
3584 个着色单元、224 个纹理映射单元和 96 个 ROP
16 GB HBM2 内存,4096 位内存接口连接
GPU 的运行频率为 1190 MHz,最高可提升至 1329 MHz,内存运行频率为 715 MHz
P40 vs. P100¶
P40( Nvidia Tesla P10 GPU运算卡 ) 和 P100 都采用了相同的 Pascal微架构,同属Telsa数据中心运算卡系列,然而这两块卡定位上是不同的:
P40具有更多CUDA core以及更快的时钟速度,但是P100的高速内存带宽远超P40(P100的732GB/s vs P40的480GB/s)
P100适合训练(提供FP16以及更快的内存带宽),P40/P4适合推理(备更快的int8能力):
P100适合训练 - 专为机器学习训练而涉及,针对更密集的计算进行优化,例如制作 LoRA/嵌入/微调模型等,可以
P40适合推理 - 针对需要快速分析大量数据的应用程序进行性能优化,非常适合图像识别和自然语言处理等应用
两者上市时起始售价相同($5699),但是目前在二手市场上 P100(1450元)略胜P40(1300元)一筹 大家对P40的24G显存更为看中,短短一周时间P40已经卖断货导致P40售价飙升到1600元反超P100(1450元),疯了…
Tesla P10 |
Tesla P40 |
Tesla P100 |
GeForce GTX 1080 Ti |
|
---|---|---|---|---|
发布日 |
2016/9/13 |
2016/9/13 |
2016/6/20 |
2017/3/10 |
系列 |
Tesla |
Tesla |
Tesla |
Tesla |
接口 |
PCIe 3.0 x16 |
PCIe 3.0 x16 |
PCIe 3.0 x16 |
PCIe 3.0 x16 |
GPU |
GP102 |
GP102 |
GP100 |
GP102 |
架构 |
Pascal |
Pascal |
Pascal |
Pascal |
工艺 |
16 nm |
16 nm |
16 nm |
16 nm |
晶体管数 |
11,800 million |
11,800 million |
15,300 million |
11,800 million |
GPU裸片面积 |
471 mm² |
471 mm² |
610 mm² |
471 mm² |
基准主频 |
1025 MHz |
1303 MHz |
1190 MHz |
1481 MHz |
Boost主频 |
1493 MHz |
1531 MHz |
1329 MHz |
1582 MHz |
内存主频 |
1808 MHz 14.5 Gbps |
1808 MHz 14.5 Gbps |
715 MHz 1430 Mbps |
1376 MHz 11 Gbps |
内存大小 |
24 GB |
24 GB |
16 GB |
11 GB |
内存类型 |
GDDR5X |
GDDR5X |
HBM2 |
GDDR5X |
内存总线 |
384 bit |
384 bit |
4096 bit |
352 bit |
内存带宽 |
694.3 GB/s |
694.3 GB/s |
732.2 GB/s |
484.4 GB/s |
着色单元 |
3840 |
3840 |
3584 |
3584 |
纹理映射单元 |
240 |
240 |
224 |
224 |
ROP |
96 |
96 |
96 |
88 |
L1 缓存 |
48 KB(per SM) |
48 KB(per SM) |
24 KB (per SM) |
48 KB(per SM) |
L2 缓存 |
3 MB |
3 MB |
4 MB |
2.75 MB |
主板插槽 |
单插槽 |
双插槽 |
双插槽 |
双插槽 |
长度 |
267 mm |
267 mm |
267 mm |
267 mm |
宽度 |
97 mm |
111 mm |
112 mm |
112 mm |
厚度 |
20 mm |
40 mm |
40mm |
40 mm |
TDP |
250 W |
250 W |
250 W |
250 W |
建议电源 |
600 W |
600 W |
600 W |
600 W |
显示输出 |
无 |
无 |
无 |
1x HDMI 3x DisplayPort |
电源连接 |
1x 8-pin |
1x 6-pin + 1x 8-pin |
1x 8-pin |
1x 6-pin + 1x 8-pin |
主板编号 |
PG610 SKU 210 |
PG610 SKU 210 |
PH400 SKU 201 |
PG611 SKU 50 |
DirectX |
12 (12_1) |
12 (12_1) |
12 (12_1) |
12 (12_1) |
OpenGL |
4.6 |
4.6 |
4.6 |
4.6 |
OpenCL |
3.0 |
3.0 |
3.0 |
3.0 |
Vulkan |
1.3 |
1.3 |
1.3 |
1.3 |
CUDA |
6.1 |
6.1 |
6.0 |
6.1 |
Shader Model |
6.4 |
6.4 |
6.0 |
6.4 |
Pixel Rate |
143.3 GPixel/s |
147.0 GPixel/s |
127.6 GPixel/s |
139.2 GPixel/s |
Texture Rate |
358.3 GTexel/s |
367.4 GTexel/s |
297.7 GTexel/s |
354.4 GTexel/s |
FP16 (half) performance |
179.2 GFLOPS (1:64) |
183.7 GFLOPS (1:64) |
19.05 TFLOPS (2:1) |
177.2 GFLOPS (1:64) |
FP32 (float) performance |
11.47 TFLOPS |
11.76 TFLOPS |
9.526 TFLOPS |
11.34 TFLOPS |
FP64 (double) performance |
358.3 GFLOPS (1:32) |
367.4 GFLOPS (1:32) |
4.763 TFLOPS (1:2) |
354.4 GFLOPS (1:32) |
备注
ChartGPT的狂潮愈演愈烈,现在二手GPU卡的售价不断上升,甚至赶超了当年的挖矿