Ce tableau fournit un aperçu des tailles de modèles approximatives (en milliards de paramètres) qui peuvent être exécutées sur diverses configurations VRAM, ainsi que des exemples de modèles connus. Notez qu'il s'agit d'estimations et qu'elles peuvent varier en fonction d'implémentations, d'architectures et d'optimisations spécifiques.
VRAM (Go) | FP32 | FP16/BF16 | INT8 | INT4 | INT2 | Exemples de modèles |
---|---|---|---|---|---|---|
16 | 3-4B | 6-8B | 12-16B | 24-32B | 48-64B | GPT-2 (1.5 milliard), BERT-Grand (340 millions) |
24 | 5-6B | 10-12B | 20-24B | 40-48B | 80-96B | GPT-J (6B), BLOOM-7B1 |
48 | 10-12B | 20-24B | 40-48B | 80-96B | 160-192B | T5-11B, BLOOM-7B1 (FP32) |
80 | 18-20B | 36-40B | 72-80B | 144-160B | 288-320B | GPT-NeoX-20B, BLOOM-176B2 |
96 | 22-24B | 44-48B | 88-96B | 176-192B | 352-384B | BLOOM-176B2, Jurassique-1 Jumbo (178B)2 |
128 | 30-32B | 60-64B | 120-128B | 240-256B | 480-512B | GPT-3 175B2, Palm 540B2 |
160 | 38-40B | 76-80B | 152-160B | 304-320B | 608-640B | PaLM 540B2, Megatron-Turing NLG 530B2 |
192 | 46-48B | 92-96B | 184-192B | 368-384B | 736-768B | BLOOM-176B (FP16) |
256 | 62-64B | 124-128B | 248-256B | 496-512B | 992-1024B | GPT-3 175B (INT8), LLaMA 2 70B (FP32) |
320 | 78-80B | 156-160B | 312-320B | 624-640B | 1248-1280B | Chinchilla 70B (FP32) |
384 | 94-96B | 188-192B | 376-384B | 752-768B | 1504-1536B | Palm 540B (INT8) |
512 | 126-128B | 252-256B | 504-512B | 1008-1024B | 2016-2048B | GPT-3 175B (FP16), BLOOM-176B (FP32) |
Notes:
- Peut fonctionner avec une précision totale (FP32)
- Nécessite une quantification ou d'autres techniques d'optimisation
Considérations supplémentaires:
- Ces estimations supposent que l’intégralité de la VRAM est disponible pour le modèle, ce qui n’est souvent pas le cas dans la pratique en raison de la mémoire utilisée par le framework, le système d’exploitation et d’autres processus.
- Le parallélisme des modèles et d’autres techniques avancées peuvent permettre d’exécuter des modèles encore plus volumineux en les répartissant sur plusieurs GPU.
- L'inférence nécessite généralement moins de mémoire que la formation, de sorte que des modèles plus grands peuvent souvent être exécutés pour l'inférence sur des configurations VRAM plus petites.
- Les tailles exactes peuvent varier en fonction de l'architecture du modèle, des détails d'implémentation et des optimisations spécifiques utilisées.
Principaux plats à emporter:
- 16-24 Go de VRAM : convient à la plupart des tâches d'IA grand public et aux modèles de recherche plus petits.
- 48-96 Go de VRAM : permet de travailler avec des modèles de moyenne à grande échelle, souvent utilisés dans des environnements professionnels et de recherche.
- 128-256 Go de VRAM : permet d'exécuter certains des plus grands modèles disponibles au public avec diverses optimisations.
- 320-512 Go de VRAM : offre une capacité pour les plus grands modèles actuels et les développements futurs, souvent obtenus grâce à des configurations multi-GPU.
Ce tableau montre l'impact significatif de la quantification et d'autres techniques d'optimisation pour permettre à des modèles plus volumineux de fonctionner sur une VRAM limitée. À mesure que l'IA continue de progresser, nous pouvons nous attendre à de nouvelles innovations dans la compression des modèles et les architectures à faible consommation de mémoire pour repousser encore plus loin ces limites.
Et attendez... Cela ne s'arrête pas avec les transformateurs...