ChatGPT, Midjourney, Suno — tu les utilises peut-être déjà. Mais comment ils fonctionnent vraiment ? Ce module t'explique la mécanique derrière, sans bullshit.
Avec le ML classique, c'est toi qui dis à la machine quoi regarder. Pour détecter un spam : "vérifie si le mot GRATUIT est en majuscules, regarde l'expéditeur". Avec le Deep Learning, tu ne dis rien. Tu montres un million d'exemples et le réseau trouve lui-même ce qui compte. Personne n'a dit à ChatGPT ce qu'est une métaphore — il l'a découvert seul.
Pour une machine, une image c'est juste une grille de chiffres. Chaque pixel = un nombre (0 = noir, 255 = blanc). Une photo 28×28 pixels ? 784 chiffres. Pas de "chat", pas de "couleur" — juste des nombres. C'est tout ce que le réseau voit au départ.
Ces chiffres passent ensuite dans des couches — comme un jeu de téléphone arabe. Couche 1 : "je vois des bords". Couche 2 : "je vois des formes". Couche 3 : "je vois un œil, une oreille". Sortie : "chat, à 94%". Choisis un exemple pour voir comment ça s'applique :
La couche de sortie peut produire deux types de résultats :
Jusqu'ici, l'IA répondait à une question fermée : spam ou pas ? Chat ou chien ? L'IA générative, c'est différent — elle crée quelque chose qui n'existait pas. Pas de copier-coller depuis une base de données. Deux grandes familles : les LLM pour le texte (ChatGPT, Gemini), les modèles de diffusion pour les images (Midjourney, DALL·E).
Tu connais le jeu "complète la phrase" ? ChatGPT y joue en boucle — des milliards de fois, sur tout Internet. À chaque étape, il prédit quel token (bout de mot) vient ensuite. Pas de magie : juste de la prédiction, très très rapide. C'est pour ça qu'il peut aussi se tromper avec la même confiance qu'il a raison.
La température c'est son bouton "prise de risque". À 0 : toujours le choix le plus probable — réponses sûres mais ennuyeuses. Haute : des réponses surprenantes, parfois brillantes, parfois complètement fausses.
Tu connais le bruit de neige sur une vieille télé ? Un modèle de diffusion part exactement de là. Il apprend à transformer cette neige aléatoire en image propre — guidé par les mots du prompt. "Un dragon violet qui lit un livre" → le modèle débruite étape par étape jusqu'à ce que l'image corresponde à la description. Ce lien texte-image, c'est CLIP qui le fait.
Même principe pour le son et la vidéo. Suno : tape "chanson pop triste années 80" → chanson complète avec voix en 30 secondes. ElevenLabs : 30 secondes d'enregistrement de ta voix suffisent pour la cloner. Sora : une phrase, une vidéo. La difficulté en plus : une image peut être ratée toute seule. Une vidéo doit être cohérente à chaque image — 24 fois par seconde.
Quatre situations. Pour chacune, identifie l'origine du contenu : créé par un humain, généré par un LLM, ou produit par un modèle de diffusion. Clique pour voir l'analyse.
Situation A — Un élève demande à ChatGPT "résume-moi la Révolution française en 5 lignes". Il reçoit un texte parfaitement structuré, sans faute, en 3 secondes.
Situation B — Une affiche publicitaire montre le visage d'une femme souriante. Elle est photoréaliste. Mais en regardant de près, ses boucles d'oreilles ne sont pas symétriques et ses dents ont un arrangement légèrement bizarre.
Situation C — Tu écoutes "Bohemian Rhapsody" de Queen, sortie en 1975. La voix est celle de Freddie Mercury, enregistrée en studio.
Situation D — Une chanson pop complète de 3 minutes — paroles, mélodie, voix — est produite depuis le prompt "chanson d'amour triste, style années 80, voix féminine" en moins d'une minute sur Suno.
TensorFlow Playground est un outil créé par Google pour visualiser ce qu'il se passe à l'intérieur d'un réseau de neurones pendant qu'il apprend. Tu vas le voir apprendre en direct.
↑ Tu peux remonter relire les sections pour t'aider à répondre.
Quelle est la différence principale entre le ML classique et le Deep Learning ?
Dans un réseau de neurones, que représentent les "poids" des connexions ?
ChatGPT, Midjourney et les outils de génération d'images sont basés sur…
Une image 28×28 pixels entre dans un réseau de neurones sous forme de…
Dans un LLM, que contrôle le paramètre "température" ?
Comment un modèle de diffusion génère-t-il une image depuis un prompt texte ?