0% ont trouvé ce document utile (0 vote)
44 vues4 pages

1 Apprentissage Supervisé PB

Le document présente un aperçu de l'apprentissage supervisé, en détaillant les types de modèles prédictifs tels que la régression linéaire, la régression logistique, les SVM et les réseaux de neurones. Il aborde également des concepts clés comme la fonction de coût, l'algorithme du gradient, et les modèles génératifs, ainsi que des techniques avancées comme le boosting et les forêts aléatoires. Enfin, il souligne l'importance de la vraisemblance et des méthodes non-paramétriques comme k-NN dans le cadre de l'apprentissage machine.

Transféré par

yns
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
44 vues4 pages

1 Apprentissage Supervisé PB

Le document présente un aperçu de l'apprentissage supervisé, en détaillant les types de modèles prédictifs tels que la régression linéaire, la régression logistique, les SVM et les réseaux de neurones. Il aborde également des concepts clés comme la fonction de coût, l'algorithme du gradient, et les modèles génératifs, ainsi que des techniques avancées comme le boosting et les forêts aléatoires. Enfin, il souligne l'importance de la vraisemblance et des méthodes non-paramétriques comme k-NN dans le cadre de l'apprentissage machine.

Transféré par

yns
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

CS 229 – Machine Learning [Link]

edu/~shervine

Pense-bête VIP : Apprentissage supervisé Moindres carrés Logistique Hinge loss Cross-entropie
1  
(y − z)2 log(1 + exp(−yz)) max(0,1 − yz) − y log(z) + (1 − y) log(1 − z)
2
Afshine Amidi et Shervine Amidi

6 octobre 2018

Introduction à l’apprentissage supervisé Régression linéaire Régression logistique SVM Réseau de neurones

Étant donné un ensemble de points {x(1) , ..., x(m) }


associés à un ensemble d’issues {y (1) , ..., y (m) },
on veut construire un classifieur qui apprend à prédire y depuis x.
r Fonction de coût – La fonction de coût J est communément utilisée pour évaluer la perfor-
r Type de prédiction – Les différents types de modèle prédictifs sont résumés dans le tableau mance d’un modèle, et est définie avec la fonction de loss L par :
ci-dessous :
m
X
J(θ) = L(hθ (x(i) ), y (i) )
Régression Classifieur
i=1
Issue Continu Classe
Exemples Régression linéaire Régression logistique, SVM, Naive Bayes r Algorithme du gradient – En notant α ∈ R le taux d’apprentissage (en anglais learning
rate), la règle de mise à jour de l’algorithme est exprimée en fonction du taux d’apprentissage
et de la fonction de cost J de la manière suivante :
r Type de modèle – Les différents modèles sont présentés dans le tableau ci-dessous : θ ←− θ − α∇J(θ)

Modèle discriminatif Modèle génératif


But Estimer directement P (y|x) Estimer P (x|y) puis déduire P (y|x)
Ce qui est appris Frontière de décision Distribution de proba des données

Illustration
Remarque : L’algorithme du gradient stochastique (en anglais SGD - Stochastic Gradient Des-
cent) met à jour le paramètre à partir de chaque élément du jeu d’entrainement, tandis que
l’algorithme du gradient de batch le fait sur chaque lot d’exemples.
Exemples Régressions, SVMs GDA, Naive Bayes r Vraisemblance – La vraisemblance d’un modèle L(θ) de paramètre θ est utilisée pour trouver
le paramètre optimal θ par le biais du maximum de vraisemblance. En pratique, on utilise la log
vraisemblance `(θ) = log(L(θ)) qui est plus facile à optimiser. On a :
Notations et concepts généraux θopt = arg max L(θ)
θ
r Hypothèse – Une hypothèse est notée hθ et est le modèle que l’on choisit. Pour une entrée
donnée x(i) , la prédiction donnée par le modèle est hθ (x(i) ).
r Algorithme de Newton – L’algorithme de Newton est une méthode numérique qui trouve
r Fonction de loss – Une fonction de loss est une fonction L : (z,y) ∈ R × Y 7−→ L(z,y) ∈ R θ tel que `0 (θ) = 0. La règle de mise à jour est :
prennant comme entrée une valeur prédite z correspondant à une valeur réelle y, et nous renseigne
sur la ressemblance de ces deux valeurs. Les fonctions de loss courantes sont récapitulées dans `0 (θ)
θ←θ−
le tableau ci-dessous : `00 (θ)

Stanford University 1 Automne 2018


CS 229 – Machine Learning [Link]

Remarque : la généralisation multidimensionnelle, aussi connue sous le nom de la méthode de Modèles linéaires généralisés
Newton-Raphson, a la règle de mise à jour suivante :
−1 r Famille exponentielle – Une classe de distributions est issue de la famille exponentielle
θ ← θ − ∇2θ `(θ) ∇θ `(θ)
lorsqu’elle peut être écrite en termes d’un paramètre naturel, aussi appelé paramètre canonique
ou fonction de lien η, d’une statistique suffisante T (y) et d’une fonction de log-partition a(η) de
la manière suivante :
Régression linéaire
p(y; η) = b(y) exp(ηT (y) − a(η))
On suppose ici que y|x; θ ∼ N (µ,σ 2 )
r Équations normales – En notant X la matrice de design, la valeur de θ qui minimize la
fonction de cost a une solution de forme fermée tel que : Remarque : on aura souvent T (y) = y. Aussi, exp(−a(η)) peut être vu comme un paramètre de
normalisation s’assurant que les probabilités somment à un.
θ = (X T X)−1 X T y Les distributions exponentielles les plus communémment rencontrées sont récapitulées dans le
tableau ci-dessous :
r Algorithme LMS – En notant α le taux d’apprentissage, la règle de mise à jour d’algorithme
des moindres carrés (LMS) pour un jeu de données d’entrainement de m points, aussi connu sous
le nom de règle de Widrow-Hoff, est donné par : Distribution η T (y) a(η) b(y)
m φ

X   (i) Bernoulli log y log(1 + exp(η)) 1
∀j, θj ← θj + α y (i) − hθ (x(i) ) xj 1−φ
 
i=1 η2 2
Gaussian µ y 2
√1 exp − y2

Remarque : la règle de mise à jour est un cas particulier de l’algorithme du gradient.
1
r LWR – Locally Weighted Regression, souvent noté LWR, est une variante de la régression Poisson log(λ) y eη
y!
linéaire appliquant un coefficient à chaque exemple dans sa fonction de coût via w(i) (x), qui est
défini avec un paramètre τ ∈ R de la manière suivante : eη

Geometric log(1 − φ) y log 1−eη
1
 
(x(i) − x)2
w(i) (x) = exp −
2τ 2
r Hypothèses pour les GLMs – Les modèles linéaires généralisés (GLM) ont pour but de
prédire une variable aléatoire y comme une fonction de x ∈ Rn+1 et reposent sur les 3 hypothèses
Classification et régression logistique suivantes :

r Sigmoïde – La sigmoïde g, aussi connue sous le nom de fonction logistique, est définie par : (1) y|x; θ ∼ ExpFamily(η) (2) hθ (x) = E[y|x; θ] (3) η = θT x
1
∀z ∈ R, g(z) = ∈]0,1[
1 + e−z Remarque : la méthode des moindres carrés ordinaires et la régression logistique sont des cas
spéciaux des modèles linéaires généralisés.

r Régression logistique – On suppose ici que y|x; θ ∼ Bernoulli(φ). On a la forme suivante :


1 Support Vector Machines
φ = p(y = 1|x; θ) = = g(θT x)
1 + exp(−θT x)
Le but des support vector machines est de trouver la ligne qui maximise la distance minimum à
Remarque : il n’y a pas de solution fermée dans le cas de la régression logistique. la ligne.
r Régression softmax – Une régression softmax, aussi appelée un régression logistique multi- r Classifieur à marges optimales – Le classifieur à marges optimales h est tel que :
classe, est utilisée pour généraliser la régression logistique lorsqu’il y a plus de 2 classes à prédire.
Par convention, on fixe θK = 0, ce qui oblige le paramètre de Bernoulli φi de chaque classe i à
être égal à : h(x) = sign(wT x − b)

exp(θiT x)
φi = où (w, b) ∈ Rn × R est une solution du problème d’optimisation suivant :
K
X
exp(θjT x) 1
j=1
min ||w||2 tel que y (i) (wT x(i) − b) > 1
2

Stanford University 2 Automne 2018


CS 229 – Machine Learning [Link]

Apprentissage génératif
Un modèle génératif essaie d’abord d’apprendre comment les données sont générées en estimant
P (x|y), nous permettant ensuite d’estimer P (y|x) par le biais du théorème de Bayes.

Gaussian Discriminant Analysis


r Cadre – Le Gaussian Discriminant Analysis suppose que y et x|y = 0 et x|y = 1 sont tels
que :
y ∼ Bernoulli(φ)

x|y = 0 ∼ N (µ0 ,Σ) et x|y = 1 ∼ N (µ1 ,Σ)

Remarque : la ligne est définie par wT x − b = 0 .


r Estimation – Le tableau suivant récapitule les estimations que l’on a trouvées lors de la
maximisation de la vraisemblance :
r Hinge loss – Le hinge loss est utilisé dans le cadre des SVMs et est défini de la manière
suivante :
φ
b µbj (j = 0,1) Σ
b
L(z,y) = [1 − yz]+ = max(0,1 − yz) Pm
m m
1 X 1
i=1 {y (i) =j}
x(i) 1 X
1{y(i) =1} P m (x(i) − µy(i) )(x(i) − µy(i) )T
m 1{y(i) =j} m
i=1
r Noyau – Étant donné un feature mapping φ, on définit le noyau K par : i=1 i=1

K(x,z) = φ(x)T φ(z)


Naive Bayes
 
||x−z||2 r Hypothèse – Le modèle de Naive Bayes suppose que les caractéristiques de chaque point
En pratique, le noyau K défini par K(x,z) = exp − 2σ2 est nommé noyau gaussien et est
sont toutes indépendantes :
communément utilisé.
n
Y
P (x|y) = P (x1 ,x2 ,...|y) = P (x1 |y)P (x2 |y)... = P (xi |y)
i=1

r Solutions – Maximiser la log vraisemblance donne les solutions suivantes, où k ∈ {0,1},l ∈


[[1,L]]

(j)
1 #{j|y (j) = k et xi = l}
P (y = k) = × #{j|y (j) = k} et P (xi = l|y = k) =
m #{j|y (j) = k}
Remarque : on dit que l’on utilise "l’astuce du noyau" (en anglais kernel trick) pour calculer la
fonction de coût en utilisant le noyau parce qu’il se trouve que l’on n’a pas besoin de trouver le
mapping explicite, qui est souvent compliqué. Il suffit de connaître les valeurs de K(x,z). Remarque : Naive Bayes est couramment utilisé pour la classification de texte et pour la détec-
tion de spams.
r Lagrangien – On définit le lagrangien L(w,b) par :

l Méthode à base d’arbres et d’ensembles


X
L(w,b) = f (w) + βi hi (w) Ces méthodes peuvent être utilisées pour des problèmes de régression et de classification.
i=1
r CART – Les arbres de classification et de régression (en anglais CART - Classification And
Regression Trees), aussi connus sous le nom d’arbres de décision, peuvent être représentés sous
Remarque : les coefficients βi sont appelés les multiplicateurs de Lagrange. la forme d’arbres binaires. Ils ont l’avantage d’être très interprétables.

Stanford University 3 Automne 2018


CS 229 – Machine Learning [Link]

r Random forest – C’est une technique à base d’arbres qui utilise un très grand nombre r Inégalité d’Hoeffding – Soit Z1 , .., Zm m variables iid tirées d’une distribution de Bernoulli
d’arbres de décisions construits à partir d’ensembles de caractéristiques aléatoirement sélection- de paramètre φ. Soit φ
b leur moyenne empirique et γ > 0 fixé. On a :
nés. Contrairement à un simple arbre de décision, il n’est pas interprétable du tout mais le fait
qu’il ait une bonne performance en fait un algorithme populaire.
b| > γ) 6 2 exp(−2γ 2 m)
P (|φ − φ
Remarque : les random forests sont un type de méthode ensembliste.
r Boosting – L’idée des méthodes de boosting est de combiner plusieurs modèles faibles pour Remarque : cette inégalité est aussi connue sous le nom de borne de Chernoff.
former un modèle meilleur. Les principales méthodes de boosting sont récapitulées dans le tableau
ci-dessous : r Erreur de training – Pour un classifieur donné h, on définit l’erreur d’entrainement b
(h),
aussi connu sous le nom de risque empirique ou d’erreur empirique, par :

Boosting adaptatif Boosting par gradient m


1 X
- De grands coefficients sont mis sur les erreurs - Les modèles faibles sont entrainés b(h) = 1{h(x(i) )6=y(i) }
m
pour s’améliorer à la prochaine étape de boosting sur les erreurs résiduelles i=1

- Connu sous le nom d’Adaboost


r Probablement Approximativement Correct (PAC) – PAC est un cadre dans lequel
de nombreux résultats d’apprentissages ont été prouvés, et contient l’ensemble d’hypothèses
Autres approches non-paramétriques suivant :
— les jeux d’entrainement et de test suivent la même distribution
r k-nearest neighbors – L’algorithme des k plus proches voisins (en anglais k-nearest neigh- — les exemples du jeu d’entrainement sont tirés indépendamment
bors), aussi connu sous le nom de k-NN, est une approche non-paramétrique où la réponse d’un
point est déterminée par la nature de ses k voisins du jeu de données d’entrainement. Il peut
être utilisé dans des cadres de classification et de régression. r Éclatement – Étant donné un ensemble S = {x(1) ,...,x(d) }, et un ensemble de classifieurs H,
on dit que H brise S si pour tout ensemble de labels {y (1) , ..., y (d) }, on a :
Remarque : Plus le paramètre k est élevé, plus le biais est élevé, et plus le paramètre k est faible,
plus la variance est élevée.
∃h ∈ H, ∀i ∈ [[1,d]], h(x(i) ) = y (i)

r Théorème de la borne supérieure – Soit H une hypothèse finie de classe telle que |H| = k,
soit δ, et soit m la taille fixée d’un échantillon. Alors, avec une probabilité d’au moins 1 − δ, on
a:
r
1 2k
   
(b
h) 6 min (h) + 2 log
h∈H 2m δ

r Dimension VC – La dimension de Vapnik-Chervonenkis (VC) d’une classe d’hypothèses de


classes infinies donnée H, que l’on note VC(H), est la taille de l’ensemble le plus grand qui est
brisé par H.
Remarque : la dimension VC de H = {set of linear classifiers in 2 dimensions} est égale à
3.

Théorie d’apprentissage
r Inégalité de Boole – Soit A1 , ..., Ak k évènements. On a :

P (A1 ∪ ... ∪ Ak ) 6 P (A1 ) + ... + P (Ak ) r Théorème (Vapnik) – Soit H donné, avec VC(H) = d avec m le nombre d’exemples d’en-
trainement. Avec une probabilité d’au moins 1 − δ, on a :
r  
d m 1 1
   
(h) 6 min (h) + O
b log + log
h∈H m d m δ

Stanford University 4 Automne 2018

Vous aimerez peut-être aussi