Comment fonctionne une IA générative, de zéro à l'inférence.
Tout ce qui existe dans le monde réel doit être converti en entiers avant d'entrer dans la machine. Texte, image, son — même langage.
Aucune connaissance préalable. Le réseau ne sait rien. Chaque paramètre est un chiffre aléatoire tiré au sort.
À l'initialisation, chaque poids du réseau reçoit une valeur aléatoire. Le réseau est incapable de produire quoi que ce soit de sensé. C'est le point de départ obligatoire.
Avant tout apprentissage, le texte est segmenté en unités élémentaires : les tokens. Ni mots entiers, ni lettres — quelque chose entre les deux.
L'algorithme (Byte-Pair Encoding) fusionne les paires de caractères les plus fréquentes jusqu'à obtenir un vocabulaire fixe. Les tokens oranges sont ceux que le modèle connaît comme unités.
Chaque token reçoit une position aléatoire dans un espace abstrait à des centaines de dimensions. L'entraînement réorganise tout.
À chaque prédiction erronée, une correction remonte couche par couche à travers le réseau. Des milliards de fois. Sans les oreilles — impossible de mesurer l'erreur.
Tonalité, tempo, thème, motifs. Certains mots pèsent plus que d'autres sur la note suivante. Le mécanisme d'attention décide lesquels.
Après le pré-entraînement massif, le modèle apprend à suivre des instructions sur un corpus restreint mais soigneusement choisi.
Le Supervised Fine-Tuning (SFT) utilise des paires (question, réponse idéale) produites soit par des annotateurs humains, soit par distillation : un modèle plus puissant génère lui-même les exemples d'entraînement — il joue le rôle du professeur qui rédige les corrigés que le modèle plus petit va mémoriser.
SFT (étape précédente) : on lui donne la bonne réponse.
« Voilà ce qu'il fallait jouer. »
RLHF : on ne sait plus quelle réponse est vraiment juste — mais on peut comparer.
« J'aime mieux celle-ci que celle-là. »
Ce signal de préférence aligne le modèle sur style, sécurité, ton — sans jamais définir la vérité absolue.
⚠ Ce ne sont pas les utilisateurs finaux qui jugent ici : ce sont des annotateurs professionnels, sélectionnés et formés, via des sociétés spécialisées (Scale AI…).
L'entraînement est terminé. Les poids sont figés définitivement.
Le modèle ne peut « voir » qu’un certain nombre de tokens à la fois. Au‑delà, tout est oublié.
Le modèle est figé (poids gelés). Le prompt de l’utilisateur est tokenisé et placé dans sa fenêtre contextuelle. Si besoin, on va chercher des documents pertinents dans une base externe, on les tokenise aussi, et on les injecte dans la même fenêtre.
Cette fois, c'est le modèle lui-même qui décide d'appeler des outils — recherche, API, base de données — avant de produire sa réponse.
Boules quies posées. Il improvise note après note. Chaque token produit devient une entrée qui conditionne le suivant.
Un seul réglage change la distribution des probabilités. Température faible → toujours la note la plus probable. Élevée → improvisation créative. Trop élevée → n'importe quoi.
Avant chaque concert, le régisseur glisse une note au saxophoniste. L'utilisateur ne la voit jamais, mais elle fixe les règles.
Les thumbs up/down d'aujourd'hui n'améliorent pas le modèle en production. Ils alimentent l'entraînement de la version suivante.
Il produit du plausible, pas du vrai. Il joue avec confiance — même les fausses notes.
Imagine une recette de gâteau : « mettre X grammes de farine, Y grammes de sucre, cuire Z minutes ». X, Y, Z sont des paramètres : ce sont des réglages que tu peux changer pour que le gâteau soit différent (plus ou moins sucré, plus ou moins cuit).
Dans un modèle informatique (par exemple un modèle d’IA qui reconnaît les arnaques ou qui fait des prévisions météo) :
Le modèle est comme une grosse formule mathématique.
Les paramètres sont les nombres ajustables à l’intérieur de cette formule.
Exemple simple : Un modèle pour deviner le prix d’une maison pourrait être :
prix = a × surface + b
a et b sont les paramètres.
On donne au modèle beaucoup d’exemples (maisons avec leur surface et leur prix réel).
Le modèle ajuste petit à petit les valeurs de a et b jusqu’à ce que ses prédictions collent au mieux à la réalité.
Avec des paramètres → le modèle peut s’adapter, se « régler » sur les données qu’il voit. Dans le deep learning, ces paramètres sont souvent des millions de petits nombres (poids des connexions entre neurones artificiels). C’est grâce à eux que le modèle « sait » reconnaître un chat, une fraude ou une voix humaine.
Un module externe découpe le signal en unités élémentaires.
Dans tous les cas, le modèle ne reçoit que des valeurs numériques brutes, dénuées de sens à ce stade.
La bande passante mémoire, c’est le débit de données que la mémoire peut transférer par seconde :
🛣️ La DDR classique (PC) est comme une autoroute à 1 voie qui laisse passer 50 voitures par seconde.
🚀 La HBM (utilisée dans les GPU d’IA) est comme une autoroute à 100 voies qui laisse passer 3 000 voitures par seconde — soit 60 fois plus de données au même moment.
Conséquence : la HBM est indispensable pour les gros modèles d’IA (GPT‑4, etc.) car elle évite que le GPU ne reste inactif en attendant les données. En revanche, son coût est très élevé.
→ Embedding de requête → cosine similarity → top‑k passages
On calcule la similarité cosinus entre le vecteur de la question et les vecteurs de chaque passage, puis on sélectionne les k passages ayant les scores les plus élevés (top‑k).
📐 Exemple chiffré (2 dimensions)
Soit A = (3, 4) et B = (1, 2)
• Produit scalaire = 3×1 + 4×2 = 3 + 8 = 11
• Norme de A = √(3² + 4²) = √(9+16) = √25 = 5
• Norme de B = √(1² + 2²) = √(1+4) = √5 ≈ 2,236
Similarité = 11 / (5 × 2,236) ≈ 11 / 11,18 ≈ 0,984 → très proches.




Des plateformes comme Remotasks (filiale de Scale AI) recrutent des freelances dans des pays émergents (Kenya, Philippines, Venezuela) pour annoter des données, évaluer des réponses ou entraîner des modèles.
Ces tâches sont cruciales pour les IA (voitures autonomes, chatbots), mais les conditions sont souvent précaires : salaires très bas (parfois 1–2 $/heure), absence de protection sociale, exposition à des contenus traumatisants (violence, pédocriminalité).
Des enquêtes ont révélé des non-paiements, des blocages arbitraires de comptes et une forte pression. Ce « prolétariat numérique » reste invisible, alors qu'il permet l'essor de l'IA — un paradoxe entre discours high-tech et exploitation low cost.
Le modèle attribue un score brut (logit) à chaque mot candidat. Ces scores ne sont pas des probabilités — ils peuvent être négatifs ou supérieurs à 1. Softmax les convertit en une distribution qui somme exactement à 100 %.
Formule : P(i) = exp(logit_i / T) / Σ exp(logit_j / T)
La température T divise chaque logit avant le calcul :
C'est le paramètre temperature exposé dans l'API Claude ou OpenAI.
→ Tout est tokenisé et tient dans ce budget limité. Un system prompt long consomme de la place au détriment de l'historique visible par le modèle.
Toutes les CGU des grandes plateformes s'octroient le droit d'utiliser vos données pour améliorer leurs modèles. C'est le modèle économique standard — voici la réalité :
⚠ Pour des données sensibles — médicales, juridiques, RH, secrets commerciaux — n'utilisez que des offres avec clause contractuelle de confidentialité (ex : Microsoft Azure OpenAI, Anthropic Enterprise).