0% ont trouvé ce document utile (0 vote)
93 vues20 pages

Regression

Le document traite des algorithmes d'apprentissage automatique, en se concentrant sur la régression linéaire et logistique, ainsi que sur les différences entre l'apprentissage supervisé et non supervisé. Il explique comment ces algorithmes permettent de prédire des valeurs ou de classer des informations en fonction de données étiquetées ou non étiquetées. Enfin, il aborde les limites des modèles linéaires et introduit les arbres de décision comme une alternative pour modéliser des relations plus complexes.

Transféré par

user99
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
93 vues20 pages

Regression

Le document traite des algorithmes d'apprentissage automatique, en se concentrant sur la régression linéaire et logistique, ainsi que sur les différences entre l'apprentissage supervisé et non supervisé. Il explique comment ces algorithmes permettent de prédire des valeurs ou de classer des informations en fonction de données étiquetées ou non étiquetées. Enfin, il aborde les limites des modèles linéaires et introduit les arbres de décision comme une alternative pour modéliser des relations plus complexes.

Transféré par

user99
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Les algorithmes de l’apprentissage automatique

Après avoir nettoyé, transformé et optimisé notre jeu de données, nous sommes prêts à passer à
l’étape essentielle du Machine Learning : l’apprentissage automatique.
Nous allons découvrir plusieurs algorithmes d'entraînement permettant à un modèle :
d’apprendre à partir des données,
de prédire de nouvelles valeurs,
ou encore de classer et regrouper des informations.
Régression Linéaire
Régression Logistique
Arbres de Décision
KNN
K-Means
DBSCAN
➡️ C’est ici que l’intelligence émerge à partir des données !
Deux grandes familles à connaître :
Apprentissage Supervisé Apprentissage Non Supervisé
Algorithme Algorithme
Domaine Problème posé Domaine Problème posé
typique typique

Prédire si un patient est Régression Segmenter des clients selon


Santé Marketing K-Means
malade ou non (0 ou 1) logistique leur comportement d'achat

Estimer le prix d’une maison Régression Regrouper des patients selon


Immobilier Santé DBSCAN
selon des caractéristiques linéaire leurs symptômes

Prédire la note finale d’un Identifier des profils Clustering (K-


Régression Éducation
Éducation étudiant à partir de ses d'apprentissage différents Means)
linéaire
devoirs

Détecter des DBSCAN,


Classer des CVs en "à KNN, arbres de
RH Sécurité comportements anormaux Anomaly
retenir" ou "à écarter" décision
dans un réseau informatique Detection
Apprentissage Supervisé
Deux grandes familles à connaître :

Apprentissage Non Supervisé


Apprentissage Supervisé Apprentissage Non Supervisé

Découvrir des structures cachées ou des


Objectif Prédire une valeur ou une catégorie connue
regroupements

Données utilisées Étiquetées (avec une variable cible) Non étiquetées

Exemples de tâches Régression, Classification Clustering, Réduction de dimension

Exemples d’algorithmes Régression linéaire, logistique, Arbres, KNN K-Means, DBSCAN, PCA

Supervisé → on apprend à partir de réponses connues pour prédire.


Non supervisé → on explore les données pour comprendre.
Les algorithmes de l’apprentissage automatique
Plan
Définitions

Champs d’application de la régression linéaire

Comprendre la régression linéaire

Evaluation de la ligne de régression

La régression linéaire multiple

Fonctions de régression linéaire sur sklearn, scipy et statsmodels


Définition :
La régression linéaire est l’un des algorithmes les plus simples et les plus puissants du Machine
Learning supervisé. Elle permet de modéliser une relation linéaire entre une ou plusieurs variables
explicatives (features) et une variable à prédire (target).

Exemples d’applications

Domaine Problème

Immobilier Estimer le prix d’une maison selon sa surface et son quartier

Éducation Prédire la note finale selon les notes des devoirs

Finance Prédire le chiffre d’affaires selon les dépenses marketing

Objectif : Prédire une valeur numérique à partir d’autres variables.


Forme de la relation

La régression linéaire permet de modéliser la relation entre une variable cible y et une ou plusieurs
variables explicatives x

Régression Linéaire Simple Régression Linéaire Multiple

Exemple :
prédire le salaire (y) à partir de l’âge (x), ou de plusieurs critères (âge, diplôme, expérience).
Comprendre l’équation de la régression linéaire

y : variable à prédire (target)


x : variable explicative (feature)
a : pente de la droite (coefficient)
b : ordonnée à l’origine (biais)
Exemple concret :
Prédire le salaire en fonction de l’âge :
Salaire=500⋅Age+2000
Si l’âge = 25 → Salaire = 500 × 25 + 2000 = 14 500 MAD
Exemple Python : Régression Linéaire Simple

Nous allons prédire le salaire mensuel (en MAD) en fonction de l’âge à


l’aide d’un modèle de régression linéaire

Utiliser un modèle de
régression linéaire pour prédire
le salaire mensuel (en MAD)
d’un employé en fonction de
son âge, et interpréter les
résultats obtenus.
Chaque point bleu représente un
individu (âge, salaire réel)
Interprétation pédagogique
La droite rouge est celle prédite par le modèle.
L’objectif de l’algorithme est de minimiser l’erreur entre les points bleus (réels)
et cette droite.
L’équation obtenue par .coef_ et .intercept_ permet de prédire un nouveau
salaire selon l’âge.
Régression Linéaire Multiple : Prédire une variable cible à partir de plusieurs caractéristiques
On souhaite prédire le salaire mensuel (MAD) d’un employé en
fonction :
L’équation est de la forme :
de son âge
de son expérience (années)
de son niveau d'études (encodé par exemple de 0 à 2)
X : matrice des features
w : coefficients appris

Si le coefficient de l'expérience est le plus


élevé, cela signifie que c’est le facteur qui
a le plus d’impact sur le salaire.

Interprétation pédagogique
Ce modèle apprend une relation linéaire entre plusieurs variables
explicatives (features) et une variable cible.
La visualisation 3D montre la différence entre la réalité (points bleus) et
la prédiction du modèle (ligne rouge).
On peut ainsi interpréter l’influence de chaque variable sur le salaire.
Quand notre cible n’est plus un nombre continu mais une classe (0 ou 1), il est temps
de changer d’algorithme : on passe à la régression logistique.

Pourquoi changer de modèle ?

Prédire une valeur numérique (salaire, prix, température...)


==> ✅ Régression linéaire
Prédire une catégorie ou une décision binaire (oui/non, succès/échec, maladie/sain...) :
==> ✅ Régression logistique

Limites de la régression linéaire pour les décisions Solution : La régression logistique


Elle prédit des valeurs continues, sans bornes. Utilise la fonction sigmoïde pour
transformer une sortie linéaire en une
Mais une probabilité de réussite doit être entre 0
probabilité.
et 1. Idéal pour les problèmes de classification
Avec la régression linéaire, on pourrait obtenir binaire :
une prédiction de -0.4 ou 1.3, ce qui n’a aucun Réussite ou échec
sens pour une probabilité ! Client fidèle ou non
Malade ou sain
Prédire une probabilité, classer une observation
La régression logistique est un algorithme de classification binaire qui permet de prédire la
probabilité qu’un événement se produise (ex : malade / pas malade, acheter / ne pas acheter).

Différence avec la régression linéaire : Formule de la fonction logistique :

Régression Linéaire Régression Logistique

Prédit une valeur continue Prédit une probabilité (0 à 1) Cette fonction « sigmoïde » transforme une
prédiction linéaire en probabilité.
Sortie réelle Sortie classée (0 ou 1)

Applications typiques :
🔬 Santé : Prédire si un patient est malade
💳 Banque : Estimer si un client remboursera un prêt
🛍 Marketing : Prédire si un client achètera un produit
🧑‍💼
RH : Prédire si un CV doit être retenu
Qu’est-ce que la fonction sigmoïde ?
La fonction sigmoïde est une fonction mathématique qui transforme n’importe quelle valeur
réelle en une valeur comprise entre 0 et 1.

Pourquoi utiliser la sigmoïde ? Formule mathématique :


La régression logistique prédit une classe, mais
au lieu de dire directement « 0 » ou « 1 », elle
calcule une probabilité qu'une observation
appartienne à la classe 1. z est une combinaison linéaire des variables explicatives
(comme en régression linéaire)
Exemple : La sortie σ(z) représente une probabilité : la probabilité
Si σ(z)=0.84 cela signifie que l’individu a 84 que l’observation soit dans la classe 1.

% de chances d’être dans la classe 1. En forme de S (sigmoïde)


On applique ensuite un seuil de décision Elle approche 0 pour de très petites valeurs de z
(souvent 0.5) : Elle approche 1 pour de très grandes valeurs de z
Si P>0.5 on prédit 1 Au milieu (z = 0), la probabilité est 0.5
Sinon, on prédit 0
Différence avec la régression linéaire :

Aspect Régression Linéaire Régression Logistique

Sortie N’importe quelle valeur réelle Valeur entre 0 et 1 (proba)

Interprétation Prédiction directe Probabilité d'appartenance à une classe

Problème traité Prédiction de valeur continue Classification binaire

Exemples :
Situation Ce que fait la sigmoïde

Heures d’étude = 2 P(Réussite) = 0.2 → échec probable

Heures d’étude = 9 P(Réussite) = 0.85 → réussite probable


Prédire une probabilité, classer une observation
Prédire une probabilité, classer une observation

[[4 1]
[0 5]]

4 vrais négatifs (0 → 0)
1 faux positif (0 → 1) : le cas de 6 heures
0 faux négatif
5 vrais positifs (1 → 1)
Prédire une probabilité, classer une observation

Ce que montre ce visuel :


On observe la fameuse forme en S de la fonction sigmoïde.
Elle transforme n’importe quelle valeur réelle (z) en une
probabilité entre 0 et 1.
Le seuil de décision est à 0.5, ce qui correspond à z = 0.
Matrice de confusion

La matrice de confusion a été obtenue à partir des prédictions du modèle de régression


logistique, en comparant les valeurs prédites avec les valeurs réelles.
Objectif du modèle : prédire si un élève réussira (1) ou échouera (0) selon ses heures d’étude.

Comment interpréter les résultats de mon modèle ?


Décryptage :
4 vrais négatifs (TN) : 4 élèves ont échoué et ont été
[[4 1] bien prédits comme échecs (0 ➝ 0).
1 faux positif (FP) : 1 élève a échoué mais le modèle a TN = Vrai Négatif
[0 5]] FP = Faux Positif
prédit une réussite (0 ➝ 1).
0 faux négatif (FN) : Aucun élève ayant réussi n’a été FN = Faux Négati
mal classé comme échec. TP = Vrai Positif
5 vrais positifs (TP) : 5 élèves ont réussi et ont été
correctement prédits comme réussite (1 ➝ 1).

Exactitude du modèle :
Exactitude = (VP + VN) / Total = (5 + 4) / 10 = 0.9
Cette matrice nous permet d’identifier les types
d’erreurs du modèle, et d’améliorer sa robustesse.
Ce que nous avons appris dans cette partie :
Régression Linéaire
→ Prédire une valeur numérique (ex. salaire) à partir de variables explicatives.
Régression Logistique
→ Prédire une probabilité et classer une observation (succès/échec, oui/non).
🧠 Ces deux modèles supposent une relation linéaire entre les variables.

Mais que faire lorsque cette relation est plus complexe ou non linéaire ❓
🔄Limites des modèles linéaires :

Peu adaptés aux relations non linéaires ou aux données avec seuils.
Difficulté à modéliser les interactions complexes entre variables.
🧭 Et maintenant ?
Nous allons découvrir un nouveau type de modèle intuitif et visuel :
🌳 Les Arbres de Décision
Une méthode simple, basée sur des règles "SI... ALORS...",
qui permet de classer, prédire ou expliquer des décisions.

Vous aimerez peut-être aussi