llm常见显存推理和微调硬件方案
通用微调配置与显存要求对照表
| 模型大小 |
配置类型 |
显存需求 |
推荐GPU硬件 |
| 7B |
Freeze (FP16) |
20GB |
RTX 4090 |
|
LoRA (FP16) |
16GB |
RTX 4090 |
|
QLoRA (INT8) |
10GB |
RTX 4080 |
|
QLoRA (INT4) |
6GB |
RTX 3060 |
| 13B |
Freeze (FP16) |
40GB |
RTX 4090 / A100 (40GB) |
|
LoRA (FP16) |
32GB |
A100 (40GB) |
|
QLoRA (INT8) |
20GB |
L40 (48GB) |
|
QLoRA (INT4) |
12GB |
RTX 4090 |
| 30B |
Freeze (FP16) |
80GB |
A100 (80GB) |
|
LoRA (FP16) |
64GB |
A100 (80GB) |
|
QLoRA (INT8) |
40GB |
L40 (48GB) |
|
QLoRA (INT4) |
24GB |
RTX 4090 |
| 70B |
Freeze (FP16) |
200GB |
H100 (80GB) * 3 |
|
LoRA (FP16) |
160GB |
H100 (80GB) * 2 |
|
QLoRA (INT8) |
80GB |
H100 (80GB) * 2 |
|
QLoRA (INT4) |
48GB |
L40 (48GB) |
| 110B |
Freeze (FP16) |
360GB |
H100 (80GB) * 5 |
|
LoRA (FP16) |
240GB |
H100 (80GB) * 3 |
|
QLoRA (INT8) |
140GB |
H100 (80GB) * 2 |
| 175B |
Freeze (FP16) |
500GB |
H100 (80GB) * 6 |
|
LoRA (FP16) |
400GB |
H100 (80GB) * 5 |
|
QLoRA (INT8) |
250GB |
H100 (80GB) * 4 |
|
QLoRA (INT4) |
150GB |
H100 (80GB) * 3 |
| 300B |
Freeze (FP16) |
800GB |
A100 / H100 (80GB) * 10 |
|
LoRA (FP16) |
600GB |
A100 / H100 (80GB) * 8 |
|
QLoRA (INT8) |
400GB |
A100 / H100 (80GB) * 6 |
|
QLoRA (INT4) |
250GB |
A100 / H100 (80GB) * 5 |
| 671B |
Freeze (FP16) |
1.5TB |
H100 (80GB) * 20 |
|
LoRA (FP16) |
1.2TB |
H100 (80GB) * 16 |
|
QLoRA (INT8) |
800GB |
H100 (80GB) * 12 |
|
QLoRA (INT4) |
500GB |
H100 (80GB) * 8 |
显存和并发的关系
所需总内存=权重+ KV缓存+激活和开销
假设以一个13B模型为例,8K tokens,10个并发请求
重量= 13亿 * 2Bytes= 26 GB
KV缓存内存总量= 800 KB * 8192 Tokens * 10个并发请求= 66 GB
激活和开销= 0.1 *(26 GB + 66 GB)= 9.2 GB
所需总内存:26 GB + 66 GB + 9.2 GB = 101.2 GB
基础运行所需要的显存,假设一个请求
| Model |
4k Tokens |
8k Tokens |
32k Tokens |
128k Tokens |
| 7B |
17.6 GB |
19.8 GB |
33.0 GB |
85.8 GB |
| 13B |
32.12 GB |
35.64 GB |
56.76 GB |
141.24 GB |
| 30B |
72.05 GB |
78.14 GB |
114.47 GB |
259.74 GB |
| 66B |
155.58 GB |
165.98 GB |
228.23 GB |
478 GB |
| 70B |
165.55 GB |
177.07 GB |
244.11 GB |
523.25 GB |
| 175B |
405.77 GB |
426.53 GB |
551.03 GB |
1049.58 GB |
并发10个请求
| Model |
4k Tokens |
8k Tokens |
32k Tokens |
128k Tokens |
| 7B |
37.4 GB |
59.4 GB |
191.4 GB |
719.4 GB |
| 13B |
63.8 GB |
99.0 GB |
303.6 GB |
1,128.6 GB |
| 30B |
126.5 GB |
181.5 GB |
528.0 GB |
1,914.0 GB |
| 66B |
244.2 GB |
343.2 GB |
937.2 GB |
3,313.2 GB |
| 70B |
264.0 GB |
374.0 GB |
1,034.0 GB |
3,674.0 GB |
| 175B |
583.0 GB |
781.0 GB |
1,969.0 GB |
6,721.0 GB |
使用工具估算显存
pip install accelerate
accelerate estimate-memory baichuan-inc/Baichuan2-13B-Chat --trust-remote-code
DeepSeek 各模型所需硬件概览
| 模型名称 |
显存需求(推理) |
推荐CPU |
推荐GPU |
推荐内存 |
| DeepSeek-R1-1.5B |
4GB+ |
Xeon W-2400系列 |
GTX 1660 |
8GB+ |
| DeepSeek-R1-3B |
8GB+ |
Xeon W-2400系列 |
RTX 3060 |
16GB+ |
| DeepSeek-R1-7B |
14GB+ |
Xeon W-2400系列 |
RTX 4080 |
16GB+ |
| DeepSeek-R1-8B |
16GB+ |
Xeon W-2400系列 |
RTX 4080 |
16GB+ |
| DeepSeek-R1-14B |
28GB+ |
Xeon W-3400系列 |
RTX 3090 * 2 |
32GB+ |
| DeepSeek-R1-32B |
58GB+ |
Xeon W-3400系列 |
RTX 3090 * 4 |
64GB+ |
| DeepSeek-R1-70B |
140GB+ |
EPYC 7002系列 |
A100 * 2 |
128GB+ |
| DeepSeek-R1-671B (Q4_K_M) |
490GB+ |
EPYC 7002系列 |
A100 * 8 * 1 |
512GB+ |
| DeepSeek-R1-671B |
1200GB+ |
EPYC 7002系列 |
A100 × 8 × 2 |
1T+ |
DeepSeek 671B 硬件方案
| 量化方案 |
模型推理(显存占用) |
模型推理(最低配置) |
模型高效微调(显存占用) |
模型高效微调(最低配置) |
模型全量微调(显存占用) |
模型全量微调(最低配置) |
| FP 16 |
1278G |
A100×8×2 (1280G) |
1531G |
H200×8×3 (1920G) |
7500G |
A100×8×12 (7680G) |
| BF 8 |
1219G |
A100×8×2 (1280G) |
1492G |
H200×8×3 (1920G) |
- |
- |
| Q_4_K_M |
490G |
A100×8(640G) |
620G |
A100×8 (640G) |
- |
- |
| INT 4(KT推理) |
24G VRAM +382G DRAM |
RTX3090(24G) |
- |
- |
- |
- |
| 1.56动态量化 |
24G VRAM +180G DRAM |
RTX3090(24G) |
- |
- |
- |
- |
DeepSeek 70B 硬件方案
| 量化方案 |
模型推理(显存占用) |
模型推理(最低配置) |
模型高效微调(显存占用) |
模型高效微调(最低配置) |
模型全量微调(显存占用) |
模型全量微调(最低配置) |
| FP 16 |
150G |
A100*2(160G) |
160G |
A100*2(160G) |
600G |
A100*8(640G) |
| INT 8 |
72G |
RTX3090*4(94G) |
80G |
RTX3090*4(94G) |
- |
- |
| INT 4 |
36G |
RTX3090*2(48G) |
48G |
RTX3090*2(48G) |
- |
- |
DeepSeek 32B 硬件方案
| 量化方案 |
模型推理(显存占用) |
模型推理(最低配置) |
模型高效微调(显存占用) |
模型高效微调(最低配置) |
模型全量微调(显存占用) |
模型全量微调(最低配置) |
| FP 16 |
55G |
RTX3090*4(94G) |
68G |
RTX3090*4(94G) |
350G |
A100*6(480G) |
| INT 8 |
35G |
RTX3090*2(48G) |
45G |
RTX3090*2(48G) |
- |
- |
| INT 4 |
22G |
RTX3090(24G) |
28G |
RTX3090*2(48G) |
- |
- |
DeepSeek 14B 硬件方案
| 量化方案 |
模型推理(显存占用) |
模型推理(最低配置) |
模型高效微调(显存占用) |
模型高效微调(最低配置) |
模型全量微调(显存占用) |
模型全量微调(最低配置) |
| FP 16 |
24G |
RTX3090(24G) |
34G |
RTX3090*2(48G) |
130G |
A100*2(160G) |
| INT 8 |
15G |
RTX4080(16G) |
22G |
RTX3090(24G) |
- |
- |
| INT 4 |
12G |
RTX3060(12G) |
14G |
RTX4080(16G) |
- |
- |
DeepSeek 8B 硬件方案
| 量化方案 |
模型推理(显存占用) |
模型推理(最低配置) |
模型高效微调(显存占用) |
模型高效微调(最低配置) |
模型全量微调(显存占用) |
模型全量微调(最低配置) |
| FP 16 |
14G |
RTX4080(16G) |
18G |
RTX3090(24G) |
70G |
RTX3090*4(94G) |
| INT 8 |
10G |
RTX3060 (12G) |
12G |
RTX3060 (12G) |
- |
- |
| INT 4 |
5G |
|
7G |
|
- |
- |
DeepSeek 7B 硬件方案
| 硬件配置 |
模型推理(显存占用) |
模型推理(最低配置) |
模型高效微调(显存占用) |
模型高效微调(最低配置) |
模型全量微调(显存占用) |
模型全量微调(最低配置) |
| FP 16 |
12G |
RTX3060 (12G) |
16G |
RTX4080(16G) |
60G |
RTX3090*4(94G) |
| INT 8 |
8G |
RTX3060 (12G) |
10G |
RTX3060 (12G) |
- |
- |
| INT 4 |
4G |
RTX3060 (12G) |
6G |
RTX3060 (12G) |
- |
- |
nvidia 官方测试数据,每秒tokens
https://developer.nvidia.com/deep-learning-performance-training-inference/ai-inference