Engineering
Qu'est-ce qu'un transformer ? Définition (IA)
Définition de l'architecture transformer : le modèle de réseau de neurones, introduit en 2017, qui est à la base des LLM modernes comme GPT, Claude et Mistral.
25 juin 20261 min
Image de couverture
Le transformer est une architecture de réseau de neurones, introduite par Google en 2017 (« Attention is All You Need »), qui repose sur le mécanisme d'attention. C'est la fondation des grands modèles de langage modernes.
Le mécanisme d'attention permet au modèle de pondérer l'importance de chaque mot par rapport aux autres dans une séquence — ce qui lui donne sa capacité à comprendre le contexte. GPT, Claude, Mistral, Gemini sont tous des transformers.
→ Comprendre comment ces modèles alimentent les agents : qu'est-ce qu'un agent IA.