prise de vue hyper réaliste du dé en silicium avec une profondeur supplémentaire et une teinte violette vibrante

Exigences en matière de VRAM pour les modèles d'IA dans différentes configurations de GPU

Exigences en matière de VRAM pour les modèles d'IA dans différentes configurations de GPU

Ce tableau fournit un aperçu des tailles de modèles approximatives (en milliards de paramètres) qui peuvent être exécutées sur diverses configurations VRAM, ainsi que des exemples de modèles connus. Notez qu'il s'agit d'estimations et qu'elles peuvent varier en fonction d'implémentations, d'architectures et d'optimisations spécifiques.

VRAM (Go) FP32 FP16/BF16 INT8 INT4 INT2 Exemples de modèles
16 3-4B 6-8B 12-16B 24-32B 48-64B GPT-2 (1.5 milliard), BERT-Grand (340 millions)
24 5-6B 10-12B 20-24B 40-48B 80-96B GPT-J (6B), BLOOM-7B1
48 10-12B 20-24B 40-48B 80-96B 160-192B T5-11B, BLOOM-7B1 (FP32)
80 18-20B 36-40B 72-80B 144-160B 288-320B GPT-NeoX-20B, BLOOM-176B2
96 22-24B 44-48B 88-96B 176-192B 352-384B BLOOM-176B2, Jurassique-1 Jumbo (178B)2
128 30-32B 60-64B 120-128B 240-256B 480-512B GPT-3 175B2, Palm 540B2
160 38-40B 76-80B 152-160B 304-320B 608-640B PaLM 540B2, Megatron-Turing NLG 530B2
192 46-48B 92-96B 184-192B 368-384B 736-768B BLOOM-176B (FP16)
256 62-64B 124-128B 248-256B 496-512B 992-1024B GPT-3 175B (INT8), LLaMA 2 70B (FP32)
320 78-80B 156-160B 312-320B 624-640B 1248-1280B Chinchilla 70B (FP32)
384 94-96B 188-192B 376-384B 752-768B 1504-1536B Palm 540B (INT8)
512 126-128B 252-256B 504-512B 1008-1024B 2016-2048B GPT-3 175B (FP16), BLOOM-176B (FP32)

Notes:

  1. Peut fonctionner avec une précision totale (FP32)
  2. Nécessite une quantification ou d'autres techniques d'optimisation

Considérations supplémentaires:

  • Ces estimations supposent que l’intégralité de la VRAM est disponible pour le modèle, ce qui n’est souvent pas le cas dans la pratique en raison de la mémoire utilisée par le framework, le système d’exploitation et d’autres processus.
  • Le parallélisme des modèles et d’autres techniques avancées peuvent permettre d’exécuter des modèles encore plus volumineux en les répartissant sur plusieurs GPU.
  • L'inférence nécessite généralement moins de mémoire que la formation, de sorte que des modèles plus grands peuvent souvent être exécutés pour l'inférence sur des configurations VRAM plus petites.
  • Les tailles exactes peuvent varier en fonction de l'architecture du modèle, des détails d'implémentation et des optimisations spécifiques utilisées.

Principaux plats à emporter:

  1. 16-24 Go de VRAM : convient à la plupart des tâches d'IA grand public et aux modèles de recherche plus petits.
  2. 48-96 Go de VRAM : permet de travailler avec des modèles de moyenne à grande échelle, souvent utilisés dans des environnements professionnels et de recherche.
  3. 128-256 Go de VRAM : permet d'exécuter certains des plus grands modèles disponibles au public avec diverses optimisations.
  4. 320-512 Go de VRAM : offre une capacité pour les plus grands modèles actuels et les développements futurs, souvent obtenus grâce à des configurations multi-GPU.

Ce tableau montre l'impact significatif de la quantification et d'autres techniques d'optimisation pour permettre à des modèles plus volumineux de fonctionner sur une VRAM limitée. À mesure que l'IA continue de progresser, nous pouvons nous attendre à de nouvelles innovations dans la compression des modèles et les architectures à faible consommation de mémoire pour repousser encore plus loin ces limites.

Et attendez... Cela ne s'arrête pas avec les transformateurs...

D'accord, mais je suis contente