Accueil
Outils profs
Blog & Questions
Module — Cerveaux artificiels
// Optionnel · Pour aller plus loin

L'IA qui génère

ChatGPT, Midjourney, Suno — tu les utilises peut-être déjà. Mais comment ils fonctionnent vraiment ? Ce module t'explique la mécanique derrière, sans bullshit.

🔬
Concept fondamental
Du Machine Learning au Deep Learning

Avec le ML classique, c'est toi qui dis à la machine quoi regarder. Pour détecter un spam : "vérifie si le mot GRATUIT est en majuscules, regarde l'expéditeur". Avec le Deep Learning, tu ne dis rien. Tu montres un million d'exemples et le réseau trouve lui-même ce qui compte. Personne n'a dit à ChatGPT ce qu'est une métaphore — il l'a découvert seul.

Machine Learning classique
🧮
Features choisies par l'humain
  • Tu décides quoi mesurer (mots, pixels, âge…)
  • Modèle simple, rapide, explicable
  • Limité sur les données complexes (images, son)
  • Ex : filtre spam, prédiction de prix
Deep Learning
🧠
Features découvertes automatiquement
  • Le réseau apprend quoi regarder tout seul
  • Beaucoup de couches, beaucoup de données
  • Performances très élevées sur images, texte, son
  • Ex : ChatGPT, Midjourney, reconnaissance vocale
// ARIA
🧠 Réseau de neurones artificiel — interactif

Pour une machine, une image c'est juste une grille de chiffres. Chaque pixel = un nombre (0 = noir, 255 = blanc). Une photo 28×28 pixels ? 784 chiffres. Pas de "chat", pas de "couleur" — juste des nombres. C'est tout ce que le réseau voit au départ.

Chaque pixel = 1 neurone d'entrée
Ici : grille 7×7 = 49 pixels → 49 entrées (simplifié)

Ces chiffres passent ensuite dans des couches — comme un jeu de téléphone arabe. Couche 1 : "je vois des bords". Couche 2 : "je vois des formes". Couche 3 : "je vois un œil, une oreille". Sortie : "chat, à 94%". Choisis un exemple pour voir comment ça s'applique :

🔬 Neurones d'entrée — ce qu'on peut mesurer
Base
+ Ajouter
Résultat
Entrée
Couche 1
Couche 2
Couche 3
Sortie
← Choisis un type d'entrée pour lancer le signal
Couche d'entrée
Couches cachées
Couche de sortie
Connexions (poids)

La couche de sortie peut produire deux types de résultats :

🏷️
Classification
La sortie est une catégorie avec un score de confiance. Le réseau choisit dans une liste prédéfinie.
Chat 87%  |  Chien 13%
SPAM 98%  |  OK 2%
📈
Régression
La sortie est un nombre continu. Pas de catégories — le réseau estime une valeur sur une échelle.
Prix estimé : 245 000 €
Température prévue : 22,3 °C
// ARIA

Section 3
IA générative — créer, pas classifier

Jusqu'ici, l'IA répondait à une question fermée : spam ou pas ? Chat ou chien ? L'IA générative, c'est différent — elle crée quelque chose qui n'existait pas. Pas de copier-coller depuis une base de données. Deux grandes familles : les LLM pour le texte (ChatGPT, Gemini), les modèles de diffusion pour les images (Midjourney, DALL·E).

📝 Génération de texte — les LLM — Large Language Models

Tu connais le jeu "complète la phrase" ? ChatGPT y joue en boucle — des milliards de fois, sur tout Internet. À chaque étape, il prédit quel token (bout de mot) vient ensuite. Pas de magie : juste de la prédiction, très très rapide. C'est pour ça qu'il peut aussi se tromper avec la même confiance qu'il a raison.

La température c'est son bouton "prise de risque". À 0 : toujours le choix le plus probable — réponses sûres mais ennuyeuses. Haute : des réponses surprenantes, parfois brillantes, parfois complètement fausses.

🔤
Token
Unité de base du texte. Pas un mot entier : un sous-mot. Un token ≈ 0,75 mot en français.
GPT-4 : fenêtre de 128 000 tokens
👁️
Attention
Mécanisme qui pèse l'importance de chaque token passé pour prédire le suivant. Le cœur du Transformer.
GPT-4 : ~1 800 milliards de paramètres (estimation)
🎲
Température
Règle l'aléatoire du tirage. 0 = déterministe. Valeur haute = créatif, moins fiable.
ChatGPT utilise ~0,7 par défaut
// ARIA
🖼️ Génération d'images — les modèles de diffusion — Stable Diffusion, DALL·E, Midjourney

Tu connais le bruit de neige sur une vieille télé ? Un modèle de diffusion part exactement de là. Il apprend à transformer cette neige aléatoire en image propre — guidé par les mots du prompt. "Un dragon violet qui lit un livre" → le modèle débruite étape par étape jusqu'à ce que l'image corresponde à la description. Ce lien texte-image, c'est CLIP qui le fait.

GAN — 2014–2022
⚔️
Générateur contre Discriminateur
  • Deux réseaux en compétition : l'un génère, l'autre juge
  • Rapide, mais instable et difficile à entraîner
  • Qualité limitée (portraits, visages)
  • Ex : ThisPersonDoesNotExist.com
Diffusion — 2022+
🌊
Débruitage progressif guidé
  • Entraînement stable, qualité largement supérieure
  • Contrôlable précisément via prompt texte
  • Midjourney, DALL·E 3, Stable Diffusion
  • Ex : quasi toutes les images IA après 2022
// ARIA
🎵
Et aussi
Audio, vidéo — la même logique

Même principe pour le son et la vidéo. Suno : tape "chanson pop triste années 80" → chanson complète avec voix en 30 secondes. ElevenLabs : 30 secondes d'enregistrement de ta voix suffisent pour la cloner. Sora : une phrase, une vidéo. La difficulté en plus : une image peut être ratée toute seule. Une vidéo doit être cohérente à chaque image — 24 fois par seconde.


// Atelier · Module 04

Réel ou généré ?

Quatre situations. Pour chacune, identifie l'origine du contenu : créé par un humain, généré par un LLM, ou produit par un modèle de diffusion. Clique pour voir l'analyse.

Situation A — Un élève demande à ChatGPT "résume-moi la Révolution française en 5 lignes". Il reçoit un texte parfaitement structuré, sans faute, en 3 secondes.

Situation B — Une affiche publicitaire montre le visage d'une femme souriante. Elle est photoréaliste. Mais en regardant de près, ses boucles d'oreilles ne sont pas symétriques et ses dents ont un arrangement légèrement bizarre.

Situation C — Tu écoutes "Bohemian Rhapsody" de Queen, sortie en 1975. La voix est celle de Freddie Mercury, enregistrée en studio.

Situation D — Une chanson pop complète de 3 minutes — paroles, mélodie, voix — est produite depuis le prompt "chanson d'amour triste, style années 80, voix féminine" en moins d'une minute sur Suno.


// Atelier 2 · Module 04

Joue avec un vrai réseau de neurones

ARIA //

TensorFlow Playground est un outil créé par Google pour visualiser ce qu'il se passe à l'intérieur d'un réseau de neurones pendant qu'il apprend. Tu vas le voir apprendre en direct.

▶ Ouvrir TensorFlow Playground S'ouvre dans un nouvel onglet — reviens ici pour les consignes.
1
Choisis un jeu de données
En haut à gauche, clique sur le cercle avec deux groupes colorés (orange et bleu). Ce sont tes données d'entraînement.
2
Lance l'entraînement
Clique sur le bouton ▶ Play en haut à gauche. Observe le fond de la zone de droite changer de couleur : le réseau apprend à séparer les deux groupes.
3
Ajoute une couche cachée
Clique sur le + sous « Hidden layers » pour ajouter une couche. Relance. Est-ce que le résultat s'améliore ?
4
Change le jeu de données
Sélectionne le cercle en spirale (le plus compliqué). Relance avec une seule couche. Le réseau y arrive-t-il ? Ajoute des couches jusqu'à ce qu'il réussisse.
5
Observe le loss
En haut à droite, tu vois « Test loss ». Plus le chiffre est petit, mieux le réseau s'en sort. Essaie de descendre en dessous de 0.10.
Ce que tu viens de faire : tu as ajusté l'architecture d'un réseau de neurones et tu l'as watché apprendre — exactement comme font les ingénieurs IA, en plus grand.

// Quiz — Module 04
1 / 6

↑ Tu peux remonter relire les sections pour t'aider à répondre.

Question 1 / 6

Quelle est la différence principale entre le ML classique et le Deep Learning ?

ALe Deep Learning ne fonctionne qu'avec des images
BEn ML classique, l'humain choisit les features ; en DL, le réseau les découvre lui-même
CLe Deep Learning est plus lent mais plus simple
DLe ML classique nécessite plus de données que le Deep Learning
Question 2 / 6

Dans un réseau de neurones, que représentent les "poids" des connexions ?

ALa taille en mégaoctets du modèle sur le disque dur
BLe nombre de couches dans le réseau
CL'importance relative d'un signal lors du traitement — ajustée pendant l'entraînement
DLa vitesse à laquelle le réseau calcule un résultat
Question 3 / 6

ChatGPT, Midjourney et les outils de génération d'images sont basés sur…

ADu Deep Learning — des réseaux de neurones profonds entraînés sur des milliards de données
BDes règles "si… alors" écrites à la main par des ingénieurs
CDes bases de données qui stockent toutes les réponses possibles
DDe l'apprentissage par renforcement uniquement
Question 4 / 6

Une image 28×28 pixels entre dans un réseau de neurones sous forme de…

AUne image compressée au format JPEG
BUn texte décrivant ce que l'image représente
C28 valeurs, une par ligne de pixels
D784 nombres (un par pixel, valeur entre 0 et 255)
Question 5 / 6

Dans un LLM, que contrôle le paramètre "température" ?

ALa vitesse de traitement du serveur qui héberge le modèle
BLa consommation électrique du modèle pendant la génération
CLe degré d'aléatoire dans le choix du token suivant — 0 = toujours le plus probable
DLe nombre de paramètres actifs pendant l'inférence
Question 6 / 6

Comment un modèle de diffusion génère-t-il une image depuis un prompt texte ?

AIl copie et colle des fragments d'images existantes issues de sa base de données d'entraînement
BIl part de bruit aléatoire et le "débruite" progressivement, guidé par le prompt via un encodeur comme CLIP
CIl convertit le texte du prompt en pixels via une formule mathématique directe
DIl dessine l'image couche par couche, comme un peintre numérique
// ARIA
Optionnel · Deep LearningLabo ARIA 🤖