llm常见显存推理和微调硬件方案
通用微调配置与显存要求对照表
模型大小 |
配置类型 |
显存需求 |
推荐GPU硬件 |
7B |
Freeze (FP16) |
20GB |
RTX 4090 |
|
LoRA (FP16) |
16GB |
RTX 4090 |
|
QLoRA (INT8) |
10GB |
RTX 4080 |
|
QLoRA (INT4) |
6GB |
RTX 3060 |
13B |
Freeze (FP16) |
40GB |
RTX 4090 / A100 (40GB) |
|
LoRA (FP16) |
32GB |
A100 (40GB) |
|
QLoRA (INT8) |
20GB |
L40 (48GB) |
|
QLoRA (INT4) |
12GB |
RTX 4090 |
30B |
Freeze (FP16) |
80GB |
A100 (80GB) |
|
LoRA (FP16) |
64GB |
A100 (80GB) |
|
QLoRA (INT8) |
40GB |
L40 (48GB) |
|
QLoRA (INT4) |
24GB |
RTX 4090 |
70B |
Freeze (FP16) |
200GB |
H100 (80GB) * 3 |
|
LoRA (FP16) |
160GB |
H100 (80GB) * 2 |
|
QLoRA (INT8) |
80GB |
H100 (80GB) * 2 |
|
QLoRA (INT4) |
48GB |
L40 (48GB) |
110B |
Freeze (FP16) |
360GB |
H100 (80GB) * 5 |
|
LoRA (FP16) |
240GB |
H100 (80GB) * 3 |
|
QLoRA (INT8) |
140GB |
H100 (80GB) * 2 |
175B |
Freeze (FP16) |
500GB |
H100 (80GB) * 6 |
|
LoRA (FP16) |
400GB |
H100 (80GB) * 5 |
|
QLoRA (INT8) |
250GB |
H100 (80GB) * 4 |
|
QLoRA (INT4) |
150GB |
H100 (80GB) * 3 |
300B |
Freeze (FP16) |
800GB |
A100 / H100 (80GB) * 10 |
|
LoRA (FP16) |
600GB |
A100 / H100 (80GB) * 8 |
|
QLoRA (INT8) |
400GB |
A100 / H100 (80GB) * 6 |
|
QLoRA (INT4) |
250GB |
A100 / H100 (80GB) * 5 |
671B |
Freeze (FP16) |
1.5TB |
H100 (80GB) * 20 |
|
LoRA (FP16) |
1.2TB |
H100 (80GB) * 16 |
|
QLoRA (INT8) |
800GB |
H100 (80GB) * 12 |
|
QLoRA (INT4) |
500GB |
H100 (80GB) * 8 |
显存和并发的关系
所需总内存=权重+ KV缓存+激活和开销
假设以一个13B模型为例,8K tokens,10个并发请求
重量= 13亿 * 2Bytes= 26 GB
KV缓存内存总量= 800 KB * 8192 Tokens * 10个并发请求= 66 GB
激活和开销= 0.1 *(26 GB + 66 GB)= 9.2 GB
所需总内存:26 GB + 66 GB + 9.2 GB = 101.2 GB
基础运行所需要的显存,假设一个请求
Model |
4k Tokens |
8k Tokens |
32k Tokens |
128k Tokens |
7B |
17.6 GB |
19.8 GB |
33.0 GB |
85.8 GB |
13B |
32.12 GB |
35.64 GB |
56.76 GB |
141.24 GB |
30B |
72.05 GB |
78.14 GB |
114.47 GB |
259.74 GB |
66B |
155.58 GB |
165.98 GB |
228.23 GB |
478 GB |
70B |
165.55 GB |
177.07 GB |
244.11 GB |
523.25 GB |
175B |
405.77 GB |
426.53 GB |
551.03 GB |
1049.58 GB |
并发10个请求
Model |
4k Tokens |
8k Tokens |
32k Tokens |
128k Tokens |
7B |
37.4 GB |
59.4 GB |
191.4 GB |
719.4 GB |
13B |
63.8 GB |
99.0 GB |
303.6 GB |
1,128.6 GB |
30B |
126.5 GB |
181.5 GB |
528.0 GB |
1,914.0 GB |
66B |
244.2 GB |
343.2 GB |
937.2 GB |
3,313.2 GB |
70B |
264.0 GB |
374.0 GB |
1,034.0 GB |
3,674.0 GB |
175B |
583.0 GB |
781.0 GB |
1,969.0 GB |
6,721.0 GB |
使用工具估算显存
pip install accelerate
accelerate estimate-memory baichuan-inc/Baichuan2-13B-Chat --trust-remote-code
DeepSeek 各模型所需硬件概览
模型名称 |
显存需求(推理) |
推荐CPU |
推荐GPU |
推荐内存 |
DeepSeek-R1-1.5B |
4GB+ |
Xeon W-2400系列 |
GTX 1660 |
8GB+ |
DeepSeek-R1-3B |
8GB+ |
Xeon W-2400系列 |
RTX 3060 |
16GB+ |
DeepSeek-R1-7B |
14GB+ |
Xeon W-2400系列 |
RTX 4080 |
16GB+ |
DeepSeek-R1-8B |
16GB+ |
Xeon W-2400系列 |
RTX 4080 |
16GB+ |
DeepSeek-R1-14B |
28GB+ |
Xeon W-3400系列 |
RTX 3090 * 2 |
32GB+ |
DeepSeek-R1-32B |
58GB+ |
Xeon W-3400系列 |
RTX 3090 * 4 |
64GB+ |
DeepSeek-R1-70B |
140GB+ |
EPYC 7002系列 |
A100 * 2 |
128GB+ |
DeepSeek-R1-671B (Q4_K_M) |
490GB+ |
EPYC 7002系列 |
A100 * 8 * 1 |
512GB+ |
DeepSeek-R1-671B |
1200GB+ |
EPYC 7002系列 |
A100 × 8 × 2 |
1T+ |
DeepSeek 671B 硬件方案
量化方案 |
模型推理(显存占用) |
模型推理(最低配置) |
模型高效微调(显存占用) |
模型高效微调(最低配置) |
模型全量微调(显存占用) |
模型全量微调(最低配置) |
FP 16 |
1278G |
A100×8×2 (1280G) |
1531G |
H200×8×3 (1920G) |
7500G |
A100×8×12 (7680G) |
BF 8 |
1219G |
A100×8×2 (1280G) |
1492G |
H200×8×3 (1920G) |
- |
- |
Q_4_K_M |
490G |
A100×8(640G) |
620G |
A100×8 (640G) |
- |
- |
INT 4(KT推理) |
24G VRAM +382G DRAM |
RTX3090(24G) |
- |
- |
- |
- |
1.56动态量化 |
24G VRAM +180G DRAM |
RTX3090(24G) |
- |
- |
- |
- |
DeepSeek 70B 硬件方案
量化方案 |
模型推理(显存占用) |
模型推理(最低配置) |
模型高效微调(显存占用) |
模型高效微调(最低配置) |
模型全量微调(显存占用) |
模型全量微调(最低配置) |
FP 16 |
150G |
A100*2(160G) |
160G |
A100*2(160G) |
600G |
A100*8(640G) |
INT 8 |
72G |
RTX3090*4(94G) |
80G |
RTX3090*4(94G) |
- |
- |
INT 4 |
36G |
RTX3090*2(48G) |
48G |
RTX3090*2(48G) |
- |
- |
DeepSeek 32B 硬件方案
量化方案 |
模型推理(显存占用) |
模型推理(最低配置) |
模型高效微调(显存占用) |
模型高效微调(最低配置) |
模型全量微调(显存占用) |
模型全量微调(最低配置) |
FP 16 |
55G |
RTX3090*4(94G) |
68G |
RTX3090*4(94G) |
350G |
A100*6(480G) |
INT 8 |
35G |
RTX3090*2(48G) |
45G |
RTX3090*2(48G) |
- |
- |
INT 4 |
22G |
RTX3090(24G) |
28G |
RTX3090*2(48G) |
- |
- |
DeepSeek 14B 硬件方案
量化方案 |
模型推理(显存占用) |
模型推理(最低配置) |
模型高效微调(显存占用) |
模型高效微调(最低配置) |
模型全量微调(显存占用) |
模型全量微调(最低配置) |
FP 16 |
24G |
RTX3090(24G) |
34G |
RTX3090*2(48G) |
130G |
A100*2(160G) |
INT 8 |
15G |
RTX4080(16G) |
22G |
RTX3090(24G) |
- |
- |
INT 4 |
12G |
RTX3060(12G) |
14G |
RTX4080(16G) |
- |
- |
DeepSeek 8B 硬件方案
量化方案 |
模型推理(显存占用) |
模型推理(最低配置) |
模型高效微调(显存占用) |
模型高效微调(最低配置) |
模型全量微调(显存占用) |
模型全量微调(最低配置) |
FP 16 |
14G |
RTX4080(16G) |
18G |
RTX3090(24G) |
70G |
RTX3090*4(94G) |
INT 8 |
10G |
RTX3060 (12G) |
12G |
RTX3060 (12G) |
- |
- |
INT 4 |
5G |
|
7G |
|
- |
- |
DeepSeek 7B 硬件方案
硬件配置 |
模型推理(显存占用) |
模型推理(最低配置) |
模型高效微调(显存占用) |
模型高效微调(最低配置) |
模型全量微调(显存占用) |
模型全量微调(最低配置) |
FP 16 |
12G |
RTX3060 (12G) |
16G |
RTX4080(16G) |
60G |
RTX3090*4(94G) |
INT 8 |
8G |
RTX3060 (12G) |
10G |
RTX3060 (12G) |
- |
- |
INT 4 |
4G |
RTX3060 (12G) |
6G |
RTX3060 (12G) |
- |
- |
nvidia 官方测试数据,每秒tokens
https://developer.nvidia.com/deep-learning-performance-training-inference/ai-inference