Qu'est-ce que l'inférence en IA ? Définition

Définition de l'inférence : la phase où un modèle d'IA déjà entraîné produit une prédiction ou une réponse à partir d'une nouvelle entrée. C'est l'IA « en production ».

25 juin 20261 min

Image de couverture

L'inférence est la phase d'utilisation d'un modèle d'IA déjà entraîné : il reçoit une nouvelle entrée et produit une sortie (prédiction, texte, classification). C'est l'IA au moment où elle sert réellement.

À distinguer de l'entraînement (où le modèle apprend). En production, le coût et la latence d'inférence sont des enjeux majeurs : ce sont eux qui déterminent le prix et la rapidité d'un service IA à l'échelle.

→ Optimiser l'inférence en production : guide LLMOps.

Prêt à déployer un pod chez vous ?

Parler à un expert Voir le modèle

À lire ensuite

Prêt à déployer un pod chez vous ?