基本参数
| 项目 |
A100 |
H100 |
H200 |
B200/GB200 |
GB300 |
Rubin (R100) |
| 架构代号 |
Ampere |
Hopper |
Hopper+ |
Blackwell |
Blackwell Ultra |
Rubin |
| 发布时间 |
2020年 |
2022年 |
2023年 |
2024-2025年 |
2025年下半年 |
2026年下半年 |
| 制程工艺 |
7nm (TSMC) |
4nm (TSMC) |
4nm (TSMC) |
4nm定制 |
3nm/4nm |
预计3nm |
| 状态 |
成熟现役 |
成熟现役 |
现役 |
量产/出货中 |
即将发布 |
开发中 |
| 目标市场 |
AI训练/推理、HPC |
LLM训练、AI推理 |
长上下文AI |
AI工厂、超大模型 |
极限性能AI |
百万token上下文 |
核心架构
| 组件 |
A100 |
H100 |
H200 |
B200 |
GB300 |
Rubin |
| CUDA核心数 |
6,912 |
18,432 |
18,432 |
~20,000+ |
~20,000+ |
未公布 |
| Tensor Core代数 |
第3代 |
第4代 |
第4代 |
第5代 |
第5代 |
第6代(预计) |
| 流多处理器(SM) |
108个 |
80个(优化后) |
80个 |
预计100+ |
预计100+ |
未公布 |
| RT Core |
无 |
无 |
无 |
无 |
无 |
无 |
| 芯片形态 |
单芯片 |
单芯片 |
单芯片 |
双芯片封装 |
双芯片封装 |
双芯片封装 |
| GPU die数量 |
1 |
1 |
1 |
2 |
2 |
2 |
内存系统
| 参数 |
A100 |
H100 |
H200 |
B200 |
GB300 |
Rubin |
| 显存容量 |
40GB/80GB |
80GB |
141GB |
192GB |
288GB |
288GB |
| 显存类型 |
HBM2e |
HBM3 |
HBM3e |
HBM3e |
HBM3e |
HBM4 |
| 显存带宽 |
2.0 TB/s |
3.35 TB/s |
4.8 TB/s |
~8 TB/s |
~8 TB/s |
13 TB/s |
| 显存堆栈数 |
5-6 |
5 |
5 |
8 |
8 |
8 |
| L2缓存 |
40MB |
50MB |
50MB |
预计80MB+ |
预计80MB+ |
未公布 |
| 内存带宽提升 |
基准 |
+67% |
+140% |
+300% |
+300% |
+550% |
计算性能
| 精度类型 |
A100 |
H100 |
H200 |
B200 |
GB300 |
Rubin |
| FP64 (双精度) |
19.5 TFLOPS |
60 TFLOPS |
60 TFLOPS |
~80 TFLOPS |
~80 TFLOPS |
未公布 |
| FP32 (单精度) |
19.5 TFLOPS |
60 TFLOPS |
60 TFLOPS |
~80 TFLOPS |
~80 TFLOPS |
未公布 |
| TF32 |
156 TFLOPS |
378 TFLOPS |
378 TFLOPS |
~600 TFLOPS |
~600 TFLOPS |
未公布 |
| FP16 |
312 TFLOPS |
756 TFLOPS |
756 TFLOPS |
1,800 TFLOPS |
1,800 TFLOPS |
未公布 |
| FP8 |
不支持 |
1,513 TFLOPS |
1,513 TFLOPS |
4,500 TFLOPS |
4,500 TFLOPS |
未公布 |
| FP4 (稀疏) |
不支持 |
不支持 |
不支持 |
9,000 TFLOPS |
9,000 TFLOPS |
未公布 |
| INT8 |
624 TOPS |
1,513 TOPS |
1,513 TOPS |
~4,500 TOPS |
~4,500 TOPS |
未公布 |
互联技术
| 技术 |
A100 |
H100 |
H200 |
B200/GB200 |
GB300 |
Rubin |
| NVLink版本 |
3.0 |
4.0 |
4.0 |
5.0 |
6.0 |
7.0(预计) |
| NVLink带宽 |
600 GB/s |
900 GB/s |
900 GB/s |
1,800 GB/s |
未公布 |
未公布 |
| 每链路带宽 |
50 GB/s |
50 GB/s |
50 GB/s |
100 GB/s |
更高 |
更高 |
| PCIe版本 |
4.0 |
5.0 |
5.0 |
5.0 |
5.0 |
6.0(预计) |
| PCIe带宽 |
64 GB/s |
128 GB/s |
128 GB/s |
128 GB/s |
128 GB/s |
256 GB/s(预计) |
| 最大GPU互联 |
16 |
256+ |
256+ |
576 |
576+ |
更多 |
CPU配对(Grace Blackwell系列)
| 参数 |
A100 |
H100 |
H200 |
GB200 |
GB300 |
Rubin系统 |
| 配套CPU |
无集成 |
无集成 |
无集成 |
Grace (72核Arm) |
Grace (72核Arm) |
Vera CV100 |
| CPU架构 |
- |
- |
- |
Neoverse V2 |
Neoverse V2 |
下一代Arm |
| CPU-GPU互联 |
- |
- |
- |
NVLink-C2C |
NVLink-C2C |
NVLink-C2C |
| CPU-GPU带宽 |
- |
- |
- |
900 GB/s |
900 GB/s |
更高 |
| 系统内存 |
- |
- |
- |
480GB LPDDR5X |
480GB LPDDR5X |
~1TB LPDDR6 |
| 统一内存空间 |
否 |
否 |
否 |
672GB |
768GB |
1+ TB |
功耗与散热
| 参数 |
A100 |
H100 |
H200 |
B200 |
GB200 |
GB300 |
| TDP (最大功耗) |
400W |
700W |
700W |
1,000W |
~1,200W |
未公布 |
| 待机功耗 |
~50W |
~80W |
~80W |
未公布 |
未公布 |
未公布 |
| 冷却方式 |
液冷/风冷 |
液冷为主 |
液冷 |
液冷必需 |
液冷必需 |
液冷必需 |
| 热设计温度 |
85°C |
85°C |
85°C |
未公布 |
未公布 |
未公布 |
| 性能/瓦提升 |
基准 |
+80% |
+80% |
+150% |
+150% |
未公布 |
特殊功能
| 功能 |
A100 |
H100 |
H200 |
B200/GB200 |
GB300 |
Rubin CPX |
| MIG (多实例GPU) |
7实例 |
7实例(改进) |
7实例 |
未公布 |
未公布 |
未公布 |
| Transformer Engine |
无 |
有 |
有(增强) |
有(第2代) |
有(第2代) |
有(第3代) |
| FP8支持 |
无 |
有 |
有 |
有(改进) |
有(改进) |
有 |
| 稀疏计算 |
2:1稀疏 |
2:1稀疏 |
2:1稀疏 |
4:1稀疏 |
4:1稀疏 |
更高 |
| 动态编程(DPX) |
无 |
有 |
有 |
有(增强) |
有(增强) |
有 |
| 机密计算 |
基础 |
增强 |
增强 |
全面支持 |
全面支持 |
全面支持 |
| 专用上下文处理 |
否 |
否 |
否 |
否 |
否 |
是(百万token) |
系统级配置
| 配置 |
A100 |
H100 |
H200 |
GB200 NVL72 |
GB300 NVL72 |
Rubin机架 |
| 单机架GPU数 |
最多16 |
最多8 |
最多8 |
72 (144芯片) |
72 (144芯片) |
88 CPU + 144 GPU |
| 机架总算力(FP8) |
不支持 |
~12 PFLOPS |
~12 PFLOPS |
720 PFLOPS |
1,100 PFLOPS |
3,600 PFLOPS |
| 机架总显存 |
640GB-1.28TB |
640GB |
1.1TB |
13.8TB |
20.7TB |
未公布 |
| 系统总带宽 |
9.6 TB/s |
~27 TB/s |
~38 TB/s |
576 TB/s |
预计900 TB/s |
未公布 |
| 机架功耗 |
~6.4kW |
~5.6kW |
~5.6kW |
~120kW |
~140kW |
未公布 |
| 冷却需求 |
标准 |
增强 |
增强 |
直接液冷 |
直接液冷 |
直接液冷 |
软件与生态
| 项目 |
A100 |
H100 |
H200 |
B200系列 |
GB300 |
Rubin |
| CUDA版本 |
11.0+ |
12.0+ |
12.0+ |
12.4+ |
12.6+ |
未来版本 |
| cuDNN支持 |
8.0+ |
8.9+ |
9.0+ |
9.2+ |
最新 |
未来 |
| TensorRT支持 |
8.0+ |
8.6+ |
9.0+ |
10.0+ |
最新 |
未来 |
| PyTorch优化 |
良好 |
优秀 |
优秀 |
深度优化 |
深度优化 |
未来 |
| TensorFlow优化 |
良好 |
优秀 |
优秀 |
深度优化 |
深度优化 |
未来 |
| NeMo框架 |
支持 |
优化 |
优化 |
深度集成 |
深度集成 |
未来 |
| NIM微服务 |
支持 |
支持 |
支持 |
原生支持 |
原生支持 |
原生支持 |
适用场景
| 场景 |
A100 |
H100 |
H200 |
B200/GB200 |
GB300 |
Rubin CPX |
| LLM训练 (<100B参数) |
⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐ |
| LLM训练 (>1T参数) |
⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
| 标准推理 (<32K上下文) |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐ |
| 长上下文推理 (>100K) |
⭐⭐ |
⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
| 百万token推理 |
⭐ |
⭐ |
⭐⭐ |
⭐⭐ |
⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
| 科学计算(HPC) |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐ |
⭐⭐⭐ |
⭐⭐ |
| 传统ML工作负载 |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐ |
⭐⭐⭐ |
⭐⭐ |
| 视频生成 |
⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
| 代码生成(长上下文) |
⭐⭐ |
⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
成本与经济性
| 项目 |
A100 |
H100 |
H200 |
B200/GB200 |
GB300 |
Rubin |
| 单卡价格(估算) |
$10,000-15,000 |
$25,000-35,000 |
$30,000-40,000 |
$40,000-70,000 |
$60,000-90,000 |
未公布 |
| 云计算时价(每GPU/小时) |
$1.50-3.00 |
$3.00-5.00 |
$4.00-6.00 |
$6.00-10.00 |
未上市 |
未上市 |
| 性能/价格比 |
良好 |
优秀 |
很好 |
优秀 |
预计优秀 |
未知 |
| 每TFLOPS成本(FP16) |
~$40 |
~$35 |
~$40 |
~$25 |
~$35 |
未知 |
| 转售价值(2025) |
$9,000-12,000 |
$28,000-32,000 |
$35,000+ |
太新无数据 |
- |
- |
| 使用寿命 |
3-5年 |
5-7年 |
5-7年 |
7+年(预计) |
7+年(预计) |
未知 |
可用性与部署
| 项目 |
A100 |
H100 |
H200 |
B200/GB200 |
GB300 |
Rubin |
| 供货状态 |
充足 |
充足(2025) |
良好 |
有限供应 |
预订中 |
开发中 |
| 交付周期 |
立即 |
数周 |
数周 |
数月 |
2025下半年 |
2026下半年 |
| 云服务商 |
AWS, GCP, Azure |
AWS, GCP, Azure |
GCP, Azure |
逐步上线 |
未来 |
未来 |
| OEM合作伙伴 |
Dell, HPE等 |
Dell, HPE, Supermicro |
同左 |
主要厂商 |
主要厂商 |
未知 |
| DGX系统 |
DGX A100 |
DGX H100 |
DGX H200 |
DGX GB200 |
DGX Station |
未来DGX |
核心技术差异
| 维度 |
A100 |
H100 |
H200 |
B200/GB200 |
GB300 |
Rubin CPX |
| 设计理念 |
通用AI加速 |
Transformer优化 |
长上下文扩展 |
AI工厂核心 |
极限性能 |
超长上下文专用 |
| 主要创新 |
MIG技术 |
FP8+Transformer Engine |
HBM3e大内存 |
双芯片+NVLink5 |
Blackwell Ultra |
百万token处理 |
| 代际提升 |
基准 |
3-6x (AI) |
1.4x内存 |
4-5x (AI) |
1.5x over GB200 |
3.3x over GB300 |
| 技术成熟度 |
非常成熟 |
成熟 |
成熟 |
早期生产 |
开发完成 |
早期开发 |
消费级产品对比 (GeForce RTX系列)
| 参数 |
RTX 4090 |
RTX 5090 |
RTX 5080 |
RTX 5070 Ti |
RTX 5070 |
| 架构 |
Ada Lovelace |
Blackwell |
Blackwell |
Blackwell |
Blackwell |
| 发布时间 |
2022年 |
2025年1月 |
2025年1月 |
2025年 |
2025年 |
| CUDA核心 |
16,384 |
~21,000 |
~10,000 |
~8,000 |
~6,000 |
| 显存 |
24GB GDDR6X |
32GB GDDR7 |
16GB GDDR7 |
12GB GDDR7 |
12GB GDDR7 |
| TDP |
450W |
575W |
360W |
300W |
250W |
| DLSS版本 |
DLSS 3 |
DLSS 4 (3帧生成) |
DLSS 4 |
DLSS 4 |
DLSS 4 |
| 适用场景 |
游戏/创作 |
8K游戏/AI |
4K游戏 |
2K-4K游戏 |
2K游戏 |
| 价格(美元) |
$1,599 |
$1,999 |
$999 |
$749 |
$549 |
专业工作站GPU
| 参数 |
RTX 6000 Ada |
RTX Pro 4000 SFF |
RTX Pro 2000 |
| 架构 |
Ada Lovelace |
Blackwell |
Blackwell |
| 显存 |
48GB GDDR6 |
24GB |
16GB |
| 外形尺寸 |
全高双槽 |
小型 |
单槽 |
| 目标用户 |
高端工作站 |
紧凑工作站 |
入门专业 |
| 发布时间 |
2023年 |
2025年8月 |
2025年8月 |
产品线总结
当前主力 (2025)
- 数据中心: H100 (主流), H200 (高端), GB200 (尖端)
- 消费级: RTX 5090/5080/5070系列
- 专业级: RTX Pro 4000/2000, RTX 6000 Ada
即将推出 (2025下半年-2026)
- 数据中心: GB300 (2025下半年), Rubin系列 (2026下半年)
- 消费级: 可能的RTX 5090 Ti/5060系列
技术路线图
2020 ─ Ampere (A100)
2022 ─ Hopper (H100)
2023 ─ Hopper+ (H200)
2024 ─ Blackwell (B200)
2025 ─ Blackwell Ultra (GB300)
2026 ─ Rubin (R100)
2027 ─ Rubin Ultra
2028 ─ 下一代架构
注: 部分未发布产品的规格为基于公开信息的估算值,实际产品可能有差异