Un modèle ne sait pas automatiquement si ce qu'on lui donne est vrai. S'il n'a pas accès à des sources fiables ou à des outils de vérification, il utilise les données qu'on lui donne comme point de départ. C'est toi qui décides de ce qu'il apprend.
Tu construis un jeu de données : une grande collection de 10 000 photos de chats et de chiens. Tu veux l'utiliser pour entraîner un programme qui doit reconnaître les chats et les chiens. Par erreur, 200 photos de chats sont étiquetées "chien". Le modèle va apprendre — sérieusement — que ces images-là représentent un chien. Il ne protestera pas. Il ne demandera pas confirmation. Il mémorisera l'erreur avec la même conviction que le reste.
Même problème avec "masculin" écrit "M" dans 3 000 lignes, "Homme" dans 4 000 autres, et "homme" dans 1 000 de plus. Pour le modèle : trois catégories distinctes. Il ne fait pas le lien.
Entraîne un modèle sur seulement 50 photos de chiens. Il va mémoriser ces 50 chiens. Montre-lui un 51e chien qu'il n'a jamais vu : il échoue. Il n'a pas appris "chien" — il a appris "ces 50 images précises". On appelle ça le sur-apprentissage : le modèle retient les exemples par coeur au lieu de comprendre la règle générale.
En 2007, la chercheuse Fei-Fei Li (Stanford) veut créer un très grand jeu de données pour entraîner des modèles de vision par ordinateur. Elle embauche des milliers de travailleurs via Amazon Mechanical Turk pour classer à la main 14 millions d'images dans 1 000 catégories. Résultat : ImageNet, un jeu de données qui a beaucoup aidé les ordinateurs à reconnaître ce qu'il y a dans les images.
Les modèles de langage comme ceux qui alimentent les chatbots aujourd'hui ont, eux, été entraînés sur Common Crawl — une énorme collection de textes récupérés sur des pages web publiques depuis 2008. Une partie importante des textes disponibles sur internet, dans des dizaines de langues. Y compris beaucoup de bêtises. C'est pour ça que ces modèles en produisent parfois.
Amazon développe pendant des années un outil pour trier automatiquement les CV. Il est entraîné sur 10 ans de recrutements réels en interne — un secteur à l'époque très majoritairement masculin. Résultat : le modèle pénalise les CV contenant le mot "féminine" (comme dans "capitaine de l'équipe féminine de tennis"). Il n'avait pas décidé de discriminer. Il avait transformé ce qu'on lui avait montré en règle générale. Amazon a arrêté le projet en 2018.
Ce type de distorsion s'appelle un biais historique : les données reflètent des inégalités passées, et le modèle les reproduit comme si c'étaient des règles universelles.
Des tribunaux américains utilisent un logiciel appelé COMPAS pour estimer le risque de récidive d'un accusé — et aider les juges à décider des peines. En 2016, l'organisation ProPublica analyse 7 000 dossiers et découvre que COMPAS se trompe presque deux fois plus souvent en défaveur des accusés noirs qu'en défaveur des accusés blancs. Des personnes réellement sans récidive se retrouvent classées "à risque élevé".
Ce type de problème s'appelle un biais de représentation : les données d'entraînement ne reflètent pas équitablement tous les groupes.
Voici 4 scénarios. Pour chacun, dis si le jeu de données est biaisé — et si oui, de quel type. Clique sur ta réponse pour voir l'analyse.
Scénario A — Un modèle de détection de pneumonie est entraîné sur des radiographies collectées dans un seul grand hôpital universitaire parisien entre 2015 et 2020. Les chercheurs veulent l'utiliser dans des dispensaires ruraux en Afrique de l'Ouest.
Scénario B — Un jeu de données avec des photos de "personnes souriantes" contient 9 000 photos de femmes et 1 000 photos d'hommes. Le modèle entraîné dessus doit détecter les émotions positives dans des publicités vidéo.
Scénario C — Un outil de suggestion de salaire pour des offres d'emploi est entraîné sur des données salariales réelles collectées entre 2000 et 2022 dans le secteur de la tech.
Scénario D — Un modèle de recommandation musicale est entraîné sur 500 millions d'écoutes Spotify collectées entre janvier et mars 2020, uniquement en Europe et en Amérique du Nord.
Question 1 / 5
Que signifie l'idée "mauvaises données, mauvais résultats" appliquée à l'apprentissage automatique ?