MLOps
Qu'est-ce que la quantization ? Définition (IA)
Définition de la quantization : une technique qui réduit la précision numérique d'un modèle d'IA pour le rendre plus léger et plus rapide, avec une perte de qualité minimale.
25 juin 20261 min
Image de couverture
La quantization est une technique de compression qui réduit la précision des poids d'un modèle d'IA (par exemple de 32 bits à 8 ou 4 bits), pour diminuer sa taille mémoire et accélérer l'inférence.
Elle permet de faire tourner des modèles puissants sur du matériel plus modeste — clé pour le déploiement on-premise ou edge. Formats courants : GPTQ, AWQ, GGUF. La perte de qualité est généralement faible et maîtrisée.
→ Voir notre expertise en optimisation de modèles.