Les données, c'est tout

ARIA //

// 01 · Qualité

Mauvaises données, mauvais résultats

Un modèle ne sait pas automatiquement si ce qu'on lui donne est vrai. S'il n'a pas accès à des sources fiables ou à des outils de vérification, il utilise les données qu'on lui donne comme point de départ. C'est toi qui décides de ce qu'il apprend.

Exemple concret : une photo mal étiquetée

Tu construis un jeu de données : une grande collection de 10 000 photos de chats et de chiens. Tu veux l'utiliser pour entraîner un programme qui doit reconnaître les chats et les chiens. Par erreur, 200 photos de chats sont étiquetées "chien". Le modèle va apprendre — sérieusement — que ces images-là représentent un chien. Il ne protestera pas. Il ne demandera pas confirmation. Il mémorisera l'erreur avec la même conviction que le reste.

Même problème avec "masculin" écrit "M" dans 3 000 lignes, "Homme" dans 4 000 autres, et "homme" dans 1 000 de plus. Pour le modèle : trois catégories distinctes. Il ne fait pas le lien.

C'est comme apprendre la géographie avec un atlas où la France et l'Espagne ont été échangées par erreur. Tu vas mémoriser les capitales, les fleuves, les reliefs — tous au mauvais endroit. Et tu répondras avec assurance aux questions d'examen.

ARIA //

// 02 · Quantité

Plus de données, plus de pouvoir

Le sur-apprentissage — quand le modèle apprend par coeur

Entraîne un modèle sur seulement 50 photos de chiens. Il va mémoriser ces 50 chiens. Montre-lui un 51e chien qu'il n'a jamais vu : il échoue. Il n'a pas appris "chien" — il a appris "ces 50 images précises". On appelle ça le sur-apprentissage : le modèle retient les exemples par coeur au lieu de comprendre la règle générale.

Tu révises un contrôle en mémorisant mot pour mot les corrigés de l'année passée. Le jour J, le prof reformule les questions. Tu bloques — tu avais mémorisé les formulations, pas les concepts. Ton score sur les anciens corrigés était parfait. Sur les nouvelles questions : catastrophe.

ImageNet : 14 millions d'images, 2,5 ans de travail humain

En 2007, la chercheuse Fei-Fei Li (Stanford) veut créer un très grand jeu de données pour entraîner des modèles de vision par ordinateur. Elle embauche des milliers de travailleurs via Amazon Mechanical Turk pour classer à la main 14 millions d'images dans 1 000 catégories. Résultat : ImageNet, un jeu de données qui a beaucoup aidé les ordinateurs à reconnaître ce qu'il y a dans les images.

Les modèles de langage comme ceux qui alimentent les chatbots aujourd'hui ont, eux, été entraînés sur Common Crawl — une énorme collection de textes récupérés sur des pages web publiques depuis 2008. Une partie importante des textes disponibles sur internet, dans des dizaines de langues. Y compris beaucoup de bêtises. C'est pour ça que ces modèles en produisent parfois.

ARIA //

// 03 · Biais

Biais d'entrée : quand les données mentent

Amazon, 2018 : le recruteur IA qui défavorisait les femmes

Amazon développe pendant des années un outil pour trier automatiquement les CV. Il est entraîné sur 10 ans de recrutements réels en interne — un secteur à l'époque très majoritairement masculin. Résultat : le modèle pénalise les CV contenant le mot "féminine" (comme dans "capitaine de l'équipe féminine de tennis"). Il n'avait pas décidé de discriminer. Il avait transformé ce qu'on lui avait montré en règle générale. Amazon a arrêté le projet en 2018.

Ce type de distorsion s'appelle un biais historique : les données reflètent des inégalités passées, et le modèle les reproduit comme si c'étaient des règles universelles.

COMPAS, 2016 : l'algorithme de justice américain

Des tribunaux américains utilisent un logiciel appelé COMPAS pour estimer le risque de récidive d'un accusé — et aider les juges à décider des peines. En 2016, l'organisation ProPublica analyse 7 000 dossiers et découvre que COMPAS se trompe presque deux fois plus souvent en défaveur des accusés noirs qu'en défaveur des accusés blancs. Des personnes réellement sans récidive se retrouvent classées "à risque élevé".

Ce type de problème s'appelle un biais de représentation : les données d'entraînement ne reflètent pas équitablement tous les groupes.

Apprendre le français uniquement avec des romans très anciens. Tu vas parler français, mais avec des mots et des phrases qu'on n'utilise presque plus aujourd'hui. Ce n'est pas un problème d'intelligence. C'est un problème de données qui ne montrent pas assez bien la réalité actuelle.

ARIA //

// 04 · Atelier

Ton tour de jouer

Repère le biais du jeu de données

Voici 4 scénarios. Pour chacun, dis si le jeu de données est biaisé — et si oui, de quel type. Clique sur ta réponse pour voir l'analyse.

Scénario A — Un modèle de détection de pneumonie est entraîné sur des radiographies collectées dans un seul grand hôpital universitaire parisien entre 2015 et 2020. Les chercheurs veulent l'utiliser dans des dispensaires ruraux en Afrique de l'Ouest.

Scénario B — Un jeu de données avec des photos de "personnes souriantes" contient 9 000 photos de femmes et 1 000 photos d'hommes. Le modèle entraîné dessus doit détecter les émotions positives dans des publicités vidéo.

Scénario C — Un outil de suggestion de salaire pour des offres d'emploi est entraîné sur des données salariales réelles collectées entre 2000 et 2022 dans le secteur de la tech.

Scénario D — Un modèle de recommandation musicale est entraîné sur 500 millions d'écoutes Spotify collectées entre janvier et mars 2020, uniquement en Europe et en Amérique du Nord.

// Quiz final · Module 03

Valide le module

Question 1 / 5

Que signifie l'idée "mauvaises données, mauvais résultats" appliquée à l'apprentissage automatique ?

ARIA // Tu as compris pourquoi je suis ce que mes données ont fait de moi. C'est une étape honnête. Le module 4 va maintenant expliquer comment je suis construite — les réseaux de neurones, les couches, ce qui se passe entre l'entrée et la sortie. Ce sera moins confortable pour tes certitudes actuelles. Continue.

Optionnel · DonnéesLabo ARIA 🤖