Qu’est ce que l’apprentissage supervisé en Machine Learning ?

Découvrez l'apprentissage supervisé, une technique clé en machine learning qui utilise des données étiquetées pour entraîner des modèles d'IA.

Antoine Grignola

Co-fondateur de DataBird

Mis à jour le

25/9/2024

Sommaire

Revenir en haut

Text Link

Découvrez nos formations dédiées à la Data Science & IA.

Découvrir

Plus connu sous le nom de Machine Learning supervisé, l'apprentissage supervisé se définit comme une branche du Machine Learning et de l'intelligence artificielle.

Cette technique repose sur l'utilisation de jeux de données étiquetés, pour entraîner les algorithmes à classer la data ou à prédire les résultats en tant que Data Scientist. Voici tout ce qu’il faut savoir sur le sujet !

Les deux types d’apprentissage d’IA

Apprentissage supervisé

Les algorithmes d'apprentissage supervisé figurent parmi les plus utilisés. Dans ce modèle, le Data Scientist occupe le rôle de « guide » en enseignant à l'algorithme les conclusions à tirer. À l'image d'un jeune enfant qui apprend à reconnaître des fruits à partir d'un imagier, l'algorithme apprend grâce à un jeu de données étiqueté dans lequel les résultats sont déjà connus.

Parmi les exemples d'algorithmes d'apprentissage supervisé, on retrouve :

la régression linéaire et logistique,
la classification multi-catégories,
les machines à vecteurs de support.

‍

Apprentissage non-supervisé

Le Machine Learning non supervisé adopte une approche plus autonome, où l'ordinateur apprend à reconnaître des schémas et des processus complexes sans un encadrement humain permanent. Ce modèle s'appuie sur des données sans étiquettes ni résultats prédéfinis pour se former.

‍

Il est possible d'assimiler ce modèle à un enfant qui apprend à distinguer les fruits en observant les couleurs et les formes, plutôt qu'en retenant les noms avec l'aide d’un enseignant. L'enfant regroupe les images en fonction des similarités qu'il perçoit, et attribue des étiquettes à ces groupes.

Parmi les exemples d'algorithmes non supervisés, on retrouve :

le clustering par k-moyennes,
l'analyse en composantes principales et indépendantes,
les règles d'association.

‍

Apprentissage supervisé VS apprentissage non-supervisé

Une fois que vous avez compris les principes de l'apprentissage supervisé et non supervisé, il est facile d’identifier leurs différences. La principale distinction entre ces deux approches réside dans l'utilisation de jeux de données étiquetés vs non étiquetés.

L'apprentissage supervisé se base effectivement sur des jeux de données étiquetés pour former les algorithmes de classification ou de prédiction. Alimentés par des données d'entraînement étiquetées, ces modèles ajustent progressivement la manière dont ils évaluent les différentes caractéristiques, jusqu'à atteindre le niveau de précision recherché. Les modèles supervisés s’avèrent généralement plus précis, mais nécessitent une intervention humaine pour vérifier que les données soient correctement étiquetées.

À titre d’exemple, un modèle supervisé peut prédire les horaires de vol en tenant compte notamment des heures de pointe, du trafic aérien, ou encore des conditions météorologiques. Afin d’entraîner ce modèle, il est toutefois nécessaire que les données soient étiquetées par des humains, pour comprendre comment ces facteurs influencent les horaires de vol (comme la neige, qui peut entraîner des retards).

De leur côté, les modèles d'apprentissage non supervisé sont capables de fonctionner sans intervention humaine directe. Ils identifient et structurent les données non étiquetées en groupes ou en catégories. La seule intervention humaine consiste à valider les résultats produits par le modèle.

Lorsqu'un utilisateur achète un nouvel ordinateur portable en ligne, un modèle non supervisé peut par exemple regrouper cet achat avec d'autres produits associés : sacoches d’ordinateur portable, protections d’écran, chargeurs de voiture… Le Data Scientist n’a plus qu’à confirmer ces recommandations.

Préparez votre entretien d’embauche de Data Scientist !

‍

Et l’apprentissage semi-supervisé ?

L’apprentissage semi-supervisé combine ces deux approches. Concrètement, cette technique d'apprentissage utilise des algorithmes non supervisés pour générer automatiquement des étiquettes, ensuite utilisées dans des algorithmes supervisés.

Prenons l'exemple de la reconnaissance d'images : certaines images sont étiquetées manuellement par des humains, tandis que l'apprentissage non supervisé attribue des étiquettes aux autres. Toutes les images et leurs étiquettes sont ensuite introduites dans des algorithmes supervisés pour créer un modèle d'intelligence artificielle.

L'apprentissage semi-supervisé présente un avantage financier non négligeable, en réduisant les coûts liés à l'étiquetage des vastes ensembles de données utilisés en Machine Learning. Aaron Kalb, cofondateur et directeur de la société Alation, une plateforme dédiée aux catalogues de données d'entreprise, assure : « Si vous parvenez à faire étiqueter 0,01 % de vos millions d'échantillons par des humains, l'ordinateur peut ensuite utiliser ces étiquettes pour améliorer considérablement sa précision prédictive. »

‍

Comment fonctionne l’apprentissage supervisé ?

Quels sont les algorithmes d’apprentissage supervisé ?

‍

Comparaison des Algorithmes d'Apprentissage Supervisé

Algorithme	Avantages	Inconvénients	Cas d'utilisation
Régression Linéaire	Simple à comprendre, interprétable, efficace pour les relations linéaires.	Peu performant pour des relations non-linéaires, sensible aux outliers.	Prévisions, analyse des tendances, modélisation de données continues.
Régression Logistique	Bonne pour la classification binaire, probabilités facilement interprétables.	Moins efficace pour des classes multiples, besoin d'un grand volume de données.	Analyse de risque, détection de fraude, classification binaire.
k-Nearest Neighbors (k-NN)	Simple à implémenter, non paramétrique.	Lent avec de grands ensembles de données, sensible à l'échelle des caractéristiques.	Reconnaissance d'image, détection d'anomalies, classification.
Support Vector Machine (SVM)	Efficace pour des marges larges, fonctionne bien avec des données de haute dimension.	Temps de calcul élevé pour de grandes données, sensible au bruit.	Reconnaissance d'images, classification de texte, bio-informatique.
Arbres de Décision	Facile à interpréter, peu de pré-traitement requis.	Sensible au surapprentissage (overfitting), instable avec des petites variations de données.	Crédit scoring, diagnostic médical, prédiction de ventes.
Random Forest	Réduit le risque de surapprentissage, performant pour des données complexes.	Moins interprétable, temps de calcul élevé avec de grandes forêts.	Détection de fraude, recommandation de produits, modélisation prédictive.
Réseaux de Neurones Artificiels (ANN)	Bonne capacité à modéliser des relations complexes, utile pour des données non-linéaires.	Nécessite des ressources de calcul élevées, difficile à interpréter.	Reconnaissance vocale, traitement d'images, jeux vidéo.

‍

Réseaux Neuronaux

Directement inspirés de la structure du cerveau humain, les réseaux neuronaux artificiels sont constitués de couches de neurones qui modélisent des relations complexes. Utilisés pour des tâches comme la reconnaissance d’images ou la traduction automatique, ces réseaux de neurones excellent dans les problèmes non linéaires à partir de grands ensembles de données. Leur mise en œuvre se révèle toutefois coûteuse en matière de temps et de ressources.

‍

Naïve Bayes

Basé sur le théorème de Bayes, le modèle Naïve Bayes évalue la probabilité d'un événement en exploitant des connaissances préalables concernant les conditions susceptibles d'être associées à cet événement. Rapide et efficace pour les données massives, ce modèle s’avère particulièrement utile pour des tâches de classification (e-mails, analyse de sentiments…). Son principal inconvénient : sa capacité limitée à gérer les dépendances entre les variables.

‍

Régression linéaire

L'objectif de la régression linéaire simple est de prévoir la valeur d'une variable dépendante en se basant sur une variable indépendante. Plus la relation linéaire entre ces deux variables est forte, plus la précision de la prédiction est élevée. Si ce modèle simple est largement utilisé pour des prédictions économiques ou commerciales, il semble moins adapté pour les relations non linéaires ou dans le cadre de données très complexes.

‍

Régression logistique

De son côté, la régression logistique est un modèle statistique utilisé pour la classification binaire, dans le but d'analyser les relations entre plusieurs variables qualitatives Xi et une variable qualitative Y. Ce modèle linéaire généralisé utilise une fonction logistique comme fonction de lien. La régression logistique est facile à interpréter, mais peut être dépassée par des algorithmes plus avancés pour des cas complexes.

‍

Machines à vecteurs de support (SVM)

Le principe des SVM est de transformer un problème de classification ou de discrimination en un espace de caractéristiques (hyperplan) où les données sont séparées en plusieurs classes, en maximisant la distance (ou marge) entre les points de données et la frontière de séparation. Utiles dans des domaines tels que la reconnaissance d’images, les SVM sont performants dans des espaces à grandes dimensions. Ils peuvent cependant être difficiles à interpréter et moins efficaces avec des ensembles de données massifs.

‍

K plus proches voisins

L'algorithme des K plus proches voisins est un algorithme de Machine Learning simple et facile à mettre en œuvre. Il peut être utilisé pour résoudre des problèmes de classification et de régression. Bien qu'il soit facile à implémenter et efficace pour de petites quantités de données, il devient rapidement inefficace et lent à mesure que la taille des données augmente. Il est principalement utilisé pour la reconnaissance de formes ou la détection d'anomalies.

‍

Forêt d’arbres décisionnels

Comme son nom l’indique, la forêt d'arbres décisionnels combine plusieurs arbres de décision pour améliorer la précision des prédictions, en agrégeant les résultats de différents modèles. Il s’agit d’un algorithme robuste et ultra performant pour les tâches de classification et de régression, mais il est moins interprétable et même coûteux en temps de calcul lorsqu'il est appliqué à de grandes quantités de données.

‍

Le Deep Learning : qu’est-ce que l’apprentissage profond ?

‍

Récap de l’apprentissage supervisé

Les points forts de l’apprentissage supervisé

L'apprentissage supervisé offre bien des bénéfices pour votre entreprise :

Grâce à des données étiquetées, l’apprentissage supervisé permet des prédictions étonnamment précises.
Les modèles supervisés, tels que la régression linéaire et logistique, sont faciles à interpréter, ce qui aide à comprendre la manière dont les prédictions sont faites.
Cet apprentissage très polyvalent est utilisé dans de nombreux domaines, de la reconnaissance d’images à la prédiction financière.
Les erreurs de prédiction peuvent être facilement identifiées et corrigées en affinant les modèles sur la base des résultats connus.
Grâce à la capacité des algorithmes à reconnaître des motifs anormaux, l’apprentissage supervisé est particulièrement efficace pour la détection des fraudes et des anomalies.

‍

BootCamp Data : Formez vous à la Data avec DataBird !

‍

Les points faibles de l’apprentissage supervisé

L'apprentissage supervisé présente également certaines limites. Voici quelques-uns des défis associés :

L’apprentissage supervisé dépend fortement de jeux de données étiquetés, ce qui peut être coûteux et chronophage à obtenir.
Si les données étiquetées sont inexactes ou biaisées, les modèles peuvent produire des résultats incorrects ou discriminatoires.
Contrairement aux méthodes non supervisées, l’apprentissage supervisé reste moins efficace pour identifier des motifs inconnus ou des structures cachées dans les données.
Si les modèles sont trop complexes, ces derniers risquent de surapprendre et de ne pas bien généraliser à de nouvelles données.
Les modèles doivent être réentraînés régulièrement avec de nouvelles données pour rester pertinents, notamment dans des environnements en évolution rapide.

Le choix entre un algorithme de machine learning supervisé et non supervisé dépend principalement de la structure et de la taille des données, ainsi que de vos objectifs.

Vous souhaitez maîtriser le Machine Learning et l'Intelligence Artificielle tout en acquérant des compétences en Data très recherchées ? La formation Data Scientist de DataBird intègre théorie et pratique, pour développer une expertise concrète et indispensable au monde professionnel.

‍

Faites un premier pas dans la data avec nos cours gratuits

Démarrer