Module — Cerveaux artificiels

// Optionnel · Pour aller plus loin

L'IA qui génère

ChatGPT, Midjourney, Suno — tu les utilises peut-être déjà. Mais comment ils fonctionnent vraiment ? Ce module t'explique la mécanique derrière, sans bullshit.

🔬

Concept fondamental

Du Machine Learning au Deep Learning

Avec le ML classique, c'est toi qui dis à la machine quoi regarder. Pour détecter un spam : "vérifie si le mot GRATUIT est en majuscules, regarde l'expéditeur". Avec le Deep Learning, tu ne dis rien. Tu montres un million d'exemples et le réseau trouve lui-même ce qui compte. Personne n'a dit à ChatGPT ce qu'est une métaphore — il l'a découvert seul.

Machine Learning classique

🧮

Features choisies par l'humain

Tu décides quoi mesurer (mots, pixels, âge…)
Modèle simple, rapide, explicable
Limité sur les données complexes (images, son)
Ex : filtre spam, prédiction de prix

Deep Learning
🧠
Features découvertes automatiquement
Le réseau apprend quoi regarder tout seul
Beaucoup de couches, beaucoup de données
Performances très élevées sur images, texte, son
Ex : ChatGPT, Midjourney, reconnaissance vocale

// ARIA

🧠 Réseau de neurones artificiel — interactif

Pour une machine, une image c'est juste une grille de chiffres. Chaque pixel = un nombre (0 = noir, 255 = blanc). Une photo 28×28 pixels ? 784 chiffres. Pas de "chat", pas de "couleur" — juste des nombres. C'est tout ce que le réseau voit au départ.

→

Chaque pixel = 1 neurone d'entrée
Ici : grille 7×7 = 49 pixels → 49 entrées (simplifié)

Ces chiffres passent ensuite dans des couches — comme un jeu de téléphone arabe. Couche 1 : "je vois des bords". Couche 2 : "je vois des formes". Couche 3 : "je vois un œil, une oreille". Sortie : "chat, à 94%". Choisis un exemple pour voir comment ça s'applique :

🔬 Neurones d'entrée — ce qu'on peut mesurer

Base

+ Ajouter

Résultat

Entrée

Couche 1

Couche 2

Couche 3

Sortie

← Choisis un type d'entrée pour lancer le signal

Couche d'entrée

Couches cachées

Couche de sortie

Connexions (poids)

La couche de sortie peut produire deux types de résultats :

🏷️

Classification

La sortie est une catégorie avec un score de confiance. Le réseau choisit dans une liste prédéfinie.

Chat 87% | Chien 13%

SPAM 98% | OK 2%

📈

Régression

La sortie est un nombre continu. Pas de catégories — le réseau estime une valeur sur une échelle.

Prix estimé : 245 000 €

Température prévue : 22,3 °C

// ARIA

✨

Section 3

IA générative — créer, pas classifier

Jusqu'ici, l'IA répondait à une question fermée : spam ou pas ? Chat ou chien ? L'IA générative, c'est différent — elle crée quelque chose qui n'existait pas. Pas de copier-coller depuis une base de données. Deux grandes familles : les LLM pour le texte (ChatGPT, Gemini), les modèles de diffusion pour les images (Midjourney, DALL·E).

📝 Génération de texte — les LLM — Large Language Models

Tu connais le jeu "complète la phrase" ? ChatGPT y joue en boucle — des milliards de fois, sur tout Internet. À chaque étape, il prédit quel token (bout de mot) vient ensuite. Pas de magie : juste de la prédiction, très très rapide. C'est pour ça qu'il peut aussi se tromper avec la même confiance qu'il a raison.

La température c'est son bouton "prise de risque". À 0 : toujours le choix le plus probable — réponses sûres mais ennuyeuses. Haute : des réponses surprenantes, parfois brillantes, parfois complètement fausses.

🔤

Token

Unité de base du texte. Pas un mot entier : un sous-mot. Un token ≈ 0,75 mot en français.

GPT-4 : fenêtre de 128 000 tokens

👁️

Attention

Mécanisme qui pèse l'importance de chaque token passé pour prédire le suivant. Le cœur du Transformer.

GPT-4 : ~1 800 milliards de paramètres (estimation)

🎲

Température

Règle l'aléatoire du tirage. 0 = déterministe. Valeur haute = créatif, moins fiable.

ChatGPT utilise ~0,7 par défaut

// ARIA

🖼️ Génération d'images — les modèles de diffusion — Stable Diffusion, DALL·E, Midjourney

Tu connais le bruit de neige sur une vieille télé ? Un modèle de diffusion part exactement de là. Il apprend à transformer cette neige aléatoire en image propre — guidé par les mots du prompt. "Un dragon violet qui lit un livre" → le modèle débruite étape par étape jusqu'à ce que l'image corresponde à la description. Ce lien texte-image, c'est CLIP qui le fait.

GAN — 2014–2022

⚔️

Générateur contre Discriminateur

Deux réseaux en compétition : l'un génère, l'autre juge
Rapide, mais instable et difficile à entraîner
Qualité limitée (portraits, visages)
Ex : ThisPersonDoesNotExist.com

Diffusion — 2022+
🌊
Débruitage progressif guidé
Entraînement stable, qualité largement supérieure
Contrôlable précisément via prompt texte
Midjourney, DALL·E 3, Stable Diffusion
Ex : quasi toutes les images IA après 2022

// ARIA

🎵

Et aussi

Audio, vidéo — la même logique

Même principe pour le son et la vidéo. Suno : tape "chanson pop triste années 80" → chanson complète avec voix en 30 secondes. ElevenLabs : 30 secondes d'enregistrement de ta voix suffisent pour la cloner. Sora : une phrase, une vidéo. La difficulté en plus : une image peut être ratée toute seule. Une vidéo doit être cohérente à chaque image — 24 fois par seconde.

// Atelier · Module 04

Réel ou généré ?

Quatre situations. Pour chacune, identifie l'origine du contenu : créé par un humain, généré par un LLM, ou produit par un modèle de diffusion. Clique pour voir l'analyse.

Situation A — Un élève demande à ChatGPT "résume-moi la Révolution française en 5 lignes". Il reçoit un texte parfaitement structuré, sans faute, en 3 secondes.

Situation B — Une affiche publicitaire montre le visage d'une femme souriante. Elle est photoréaliste. Mais en regardant de près, ses boucles d'oreilles ne sont pas symétriques et ses dents ont un arrangement légèrement bizarre.

Situation C — Tu écoutes "Bohemian Rhapsody" de Queen, sortie en 1975. La voix est celle de Freddie Mercury, enregistrée en studio.

Situation D — Une chanson pop complète de 3 minutes — paroles, mélodie, voix — est produite depuis le prompt "chanson d'amour triste, style années 80, voix féminine" en moins d'une minute sur Suno.

// Atelier 2 · Module 04

Joue avec un vrai réseau de neurones

ARIA //

TensorFlow Playground est un outil créé par Google pour visualiser ce qu'il se passe à l'intérieur d'un réseau de neurones pendant qu'il apprend. Tu vas le voir apprendre en direct.

▶ Ouvrir TensorFlow Playground S'ouvre dans un nouvel onglet — reviens ici pour les consignes.

Choisis un jeu de données
En haut à gauche, clique sur le cercle avec deux groupes colorés (orange et bleu). Ce sont tes données d'entraînement.

Lance l'entraînement
Clique sur le bouton ▶ Play en haut à gauche. Observe le fond de la zone de droite changer de couleur : le réseau apprend à séparer les deux groupes.

Ajoute une couche cachée
Clique sur le + sous « Hidden layers » pour ajouter une couche. Relance. Est-ce que le résultat s'améliore ?

Change le jeu de données
Sélectionne le cercle en spirale (le plus compliqué). Relance avec une seule couche. Le réseau y arrive-t-il ? Ajoute des couches jusqu'à ce qu'il réussisse.

Observe le loss
En haut à droite, tu vois « Test loss ». Plus le chiffre est petit, mieux le réseau s'en sort. Essaie de descendre en dessous de 0.10.

Ce que tu viens de faire : tu as ajusté l'architecture d'un réseau de neurones et tu l'as watché apprendre — exactement comme font les ingénieurs IA, en plus grand.

// Quiz — Module 04

1 / 6

↑ Tu peux remonter relire les sections pour t'aider à répondre.

Question 1 / 6

Quelle est la différence principale entre le ML classique et le Deep Learning ?

ALe Deep Learning ne fonctionne qu'avec des images

BEn ML classique, l'humain choisit les features ; en DL, le réseau les découvre lui-même

CLe Deep Learning est plus lent mais plus simple

DLe ML classique nécessite plus de données que le Deep Learning

Question 2 / 6

Dans un réseau de neurones, que représentent les "poids" des connexions ?

ALa taille en mégaoctets du modèle sur le disque dur

BLe nombre de couches dans le réseau

CL'importance relative d'un signal lors du traitement — ajustée pendant l'entraînement

DLa vitesse à laquelle le réseau calcule un résultat

Question 3 / 6

ChatGPT, Midjourney et les outils de génération d'images sont basés sur…

ADu Deep Learning — des réseaux de neurones profonds entraînés sur des milliards de données

BDes règles "si… alors" écrites à la main par des ingénieurs

CDes bases de données qui stockent toutes les réponses possibles

DDe l'apprentissage par renforcement uniquement

Question 4 / 6

Une image 28×28 pixels entre dans un réseau de neurones sous forme de…

AUne image compressée au format JPEG

BUn texte décrivant ce que l'image représente

C28 valeurs, une par ligne de pixels

D784 nombres (un par pixel, valeur entre 0 et 255)

Question 5 / 6

Dans un LLM, que contrôle le paramètre "température" ?

ALa vitesse de traitement du serveur qui héberge le modèle

BLa consommation électrique du modèle pendant la génération

CLe degré d'aléatoire dans le choix du token suivant — 0 = toujours le plus probable

DLe nombre de paramètres actifs pendant l'inférence

Question 6 / 6

Comment un modèle de diffusion génère-t-il une image depuis un prompt texte ?

AIl copie et colle des fragments d'images existantes issues de sa base de données d'entraînement

BIl part de bruit aléatoire et le "débruite" progressivement, guidé par le prompt via un encodeur comme CLIP

CIl convertit le texte du prompt en pixels via une formule mathématique directe

DIl dessine l'image couche par couche, comme un peintre numérique

// ARIA

Séance 3 : L'art du prompt →

Optionnel · Deep LearningLabo ARIA 🤖