Blog/Engineering
Engineering

Qu'est-ce que l'inférence en IA ? Définition

Définition de l'inférence : la phase où un modèle d'IA déjà entraîné produit une prédiction ou une réponse à partir d'une nouvelle entrée. C'est l'IA « en production ».

25 juin 20261 min
Image de couverture

L'inférence est la phase d'utilisation d'un modèle d'IA déjà entraîné : il reçoit une nouvelle entrée et produit une sortie (prédiction, texte, classification). C'est l'IA au moment où elle sert réellement.

À distinguer de l'entraînement (où le modèle apprend). En production, le coût et la latence d'inférence sont des enjeux majeurs : ce sont eux qui déterminent le prix et la rapidité d'un service IA à l'échelle.

→ Optimiser l'inférence en production : guide LLMOps.

À lire ensuite

Tout le blog →

Prêt à déployer un pod chez vous ?