llm常见显存推理和微调硬件方案


通用微调配置与显存要求对照表

模型大小配置类型显存需求推荐GPU硬件
7BFreeze (FP16)20GBRTX 4090
LoRA (FP16)16GBRTX 4090
QLoRA (INT8)10GBRTX 4080
QLoRA (INT4)6GBRTX 3060
13BFreeze (FP16)40GBRTX 4090 / A100 (40GB)
LoRA (FP16)32GBA100 (40GB)
QLoRA (INT8)20GBL40 (48GB)
QLoRA (INT4)12GBRTX 4090
30BFreeze (FP16)80GBA100 (80GB)
LoRA (FP16)64GBA100 (80GB)
QLoRA (INT8)40GBL40 (48GB)
QLoRA (INT4)24GBRTX 4090
70BFreeze (FP16)200GBH100 (80GB) * 3
LoRA (FP16)160GBH100 (80GB) * 2
QLoRA (INT8)80GBH100 (80GB) * 2
QLoRA (INT4)48GBL40 (48GB)
110BFreeze (FP16)360GBH100 (80GB) * 5
LoRA (FP16)240GBH100 (80GB) * 3
QLoRA (INT8)140GBH100 (80GB) * 2
175BFreeze (FP16)500GBH100 (80GB) * 6
LoRA (FP16)400GBH100 (80GB) * 5
QLoRA (INT8)250GBH100 (80GB) * 4
QLoRA (INT4)150GBH100 (80GB) * 3
300BFreeze (FP16)800GBA100 / H100 (80GB) * 10
LoRA (FP16)600GBA100 / H100 (80GB) * 8
QLoRA (INT8)400GBA100 / H100 (80GB) * 6
QLoRA (INT4)250GBA100 / H100 (80GB) * 5
671BFreeze (FP16)1.5TBH100 (80GB) * 20
LoRA (FP16)1.2TBH100 (80GB) * 16
QLoRA (INT8)800GBH100 (80GB) * 12
QLoRA (INT4)500GBH100 (80GB) * 8

显存和并发的关系

所需总内存=权重+ KV缓存+激活和开销
假设以一个13B模型为例,8K tokens,10个并发请求

重量= 13亿 * 2Bytes= 26 GB
KV缓存内存总量= 800 KB * 8192 Tokens * 10个并发请求= 66 GB
激活和开销= 0.1 *(26 GB + 66 GB)= 9.2 GB
所需总内存:26 GB + 66 GB + 9.2 GB = 101.2 GB

基础运行所需要的显存,假设一个请求

Model4k Tokens8k Tokens32k Tokens128k Tokens
7B17.6 GB19.8 GB33.0 GB85.8 GB
13B32.12 GB35.64 GB56.76 GB141.24 GB
30B72.05 GB78.14 GB114.47 GB259.74 GB
66B155.58 GB165.98 GB228.23 GB478 GB
70B165.55 GB177.07 GB244.11 GB523.25 GB
175B405.77 GB426.53 GB551.03 GB1049.58 GB

并发10个请求

Model4k Tokens8k Tokens32k Tokens128k Tokens
7B37.4 GB59.4 GB191.4 GB719.4 GB
13B63.8 GB99.0 GB303.6 GB1,128.6 GB
30B126.5 GB181.5 GB528.0 GB1,914.0 GB
66B244.2 GB343.2 GB937.2 GB3,313.2 GB
70B264.0 GB374.0 GB1,034.0 GB3,674.0 GB
175B583.0 GB781.0 GB1,969.0 GB6,721.0 GB

使用工具估算显存

shell
pip install accelerate
accelerate estimate-memory baichuan-inc/Baichuan2-13B-Chat --trust-remote-code

DeepSeek 各模型所需硬件概览

模型名称显存需求(推理)推荐CPU推荐GPU推荐内存
DeepSeek-R1-1.5B4GB+Xeon W-2400系列GTX 16608GB+
DeepSeek-R1-3B8GB+Xeon W-2400系列RTX 306016GB+
DeepSeek-R1-7B14GB+Xeon W-2400系列RTX 408016GB+
DeepSeek-R1-8B16GB+Xeon W-2400系列RTX 408016GB+
DeepSeek-R1-14B28GB+Xeon W-3400系列RTX 3090 * 232GB+
DeepSeek-R1-32B58GB+Xeon W-3400系列RTX 3090 * 464GB+
DeepSeek-R1-70B140GB+EPYC 7002系列A100 * 2128GB+
DeepSeek-R1-671B (Q4_K_M)490GB+EPYC 7002系列A100 * 8 * 1512GB+
DeepSeek-R1-671B1200GB+EPYC 7002系列A100 × 8 × 21T+

DeepSeek 671B 硬件方案

量化方案模型推理(显存占用)模型推理(最低配置)模型高效微调(显存占用)模型高效微调(最低配置)模型全量微调(显存占用)模型全量微调(最低配置)
FP 161278GA100×8×2 (1280G)1531GH200×8×3 (1920G)7500GA100×8×12 (7680G)
BF 81219GA100×8×2 (1280G)1492GH200×8×3 (1920G)--
Q_4_K_M490GA100×8(640G)620GA100×8 (640G)--
INT 4(KT推理)24G VRAM +382G DRAMRTX3090(24G)----
1.56动态量化24G VRAM +180G DRAMRTX3090(24G)----

DeepSeek 70B 硬件方案

量化方案模型推理(显存占用)模型推理(最低配置)模型高效微调(显存占用)模型高效微调(最低配置)模型全量微调(显存占用)模型全量微调(最低配置)
FP 16150GA100*2(160G)160GA100*2(160G)600GA100*8(640G)
INT 872GRTX3090*4(94G)80GRTX3090*4(94G)--
INT 436GRTX3090*2(48G)48GRTX3090*2(48G)--

DeepSeek 32B 硬件方案

量化方案模型推理(显存占用)模型推理(最低配置)模型高效微调(显存占用)模型高效微调(最低配置)模型全量微调(显存占用)模型全量微调(最低配置)
FP 1655GRTX3090*4(94G)68GRTX3090*4(94G)350GA100*6(480G)
INT 835GRTX3090*2(48G)45GRTX3090*2(48G)--
INT 422GRTX3090(24G)28GRTX3090*2(48G)--

DeepSeek 14B 硬件方案

量化方案模型推理(显存占用)模型推理(最低配置)模型高效微调(显存占用)模型高效微调(最低配置)模型全量微调(显存占用)模型全量微调(最低配置)
FP 1624GRTX3090(24G)34GRTX3090*2(48G)130GA100*2(160G)
INT 815GRTX4080(16G)22GRTX3090(24G)--
INT 412GRTX3060(12G)14GRTX4080(16G)--

DeepSeek 8B 硬件方案

量化方案模型推理(显存占用)模型推理(最低配置)模型高效微调(显存占用)模型高效微调(最低配置)模型全量微调(显存占用)模型全量微调(最低配置)
FP 1614GRTX4080(16G)18GRTX3090(24G)70GRTX3090*4(94G)
INT 810GRTX3060 (12G)12GRTX3060 (12G)--
INT 45G7G--

DeepSeek 7B 硬件方案

硬件配置模型推理(显存占用)模型推理(最低配置)模型高效微调(显存占用)模型高效微调(最低配置)模型全量微调(显存占用)模型全量微调(最低配置)
FP 1612GRTX3060 (12G)16GRTX4080(16G)60GRTX3090*4(94G)
INT 88GRTX3060 (12G)10GRTX3060 (12G)--
INT 44GRTX3060 (12G)6GRTX3060 (12G)--

nvidia 官方测试数据,每秒tokens

https://developer.nvidia.com/deep-learning-performance-training-inference/ai-inference

愿意放弃自由来换取保障的人,他最终既得不到自由,也得不到保障 -- 哈耶克