0% ont trouvé ce document utile (0 vote)

147 vues46 pages

Optimisation : Cours et Algorithmes Mathématiques

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

147 vues46 pages

Optimisation : Cours et Algorithmes Mathématiques

Transféré par

Machoudi ADEGOUNTE

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Optimisation (MML1E31)

Notes de cours
Master 1 Mathématiques et Modélisation (MM)
2017-2018

Bruno G ALERNE
Bureau 812-F
bruno.galerne@parisdescartes.fr
Table des matières

1 Rappels et compléments de calculs différentiels 4

1.1 Cadre et notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Différentielle et gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Applications linéaires et matrices associées . . . . . . . . . . . . . . . 4
1.2.2 Différentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.4 Dérivation des fonctions composées . . . . . . . . . . . . . . . . . . . 6
1.3 Différentielle d’ordre deux et matrice hessienne . . . . . . . . . . . . . . . . . 6
1.4 Formules de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Problèmes d’optimisation : Existence et unicité des solutions 9

2.1 Cadre et vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Existence de solutions pour les fonctions coercives et continues . . . . . . . . . 10
2.3 Extremums locaux et dérivabilité . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Ensembles convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 Fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5.1 Définition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5.2 Caractérisation des fonctions convexes différentiables et deux fois dif-
férentiables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.5.3 Problèmes d’optimisation convexes . . . . . . . . . . . . . . . . . . . 18
2.6 Etude des fonctionnelles quadratiques . . . . . . . . . . . . . . . . . . . . . . 19
2.7 Exercices supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Algorithmes de descente pour des problèmes sans contraintes 23

3.1 Forte convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Généralités sur les algorithmes de descente . . . . . . . . . . . . . . . . . . . 26
3.2.1 Forme générale d’un algorithme de descente . . . . . . . . . . . . . . 26
3.2.2 Algorithmes de recherche de pas de descente . . . . . . . . . . . . . . 28
3.3 Algorithmes de descente de gradient . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Méthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4 Méthode du gradient conjugué 38

4.1 Description de l’algorithme et preuve de sa convergence . . . . . . . . . . . . 38
4.2 Implémentation de l’algorithme du gradient conjugué . . . . . . . . . . . . . . 40
4.3 Algorithme du gradient conjugué comme méthode itérative . . . . . . . . . . . 45

2
Introduction

Ce cours est une introduction aux problèmes d’optimisation. Le cours se focalise essen-
tiellement sur des problèmes d’optimisation sans contrainte en dimension finie. Après une in-
troduction des différentes notions mathématiques nécessaires (rappels de calcul différentiel,
conditions d’optimalité, convexité, etc.), une part importante est donnée à l’exposition des dif-
férents algorithmes classiques d’optimisation, l’étude théorique de leur convergence, ainsi que
la mise en œuvre pratique de ces algorithmes. Le logiciel libre de calcul scientiffique Octave
sera utilisé en séance de Travaux Pratiques (TP).
Octave est téléchargeable gratuitement ici :
https://www.gnu.org/software/octave/

Les principaux ouvrages de référence pour ce cours sont :

[C IARLET] Philippe G. C IARLET, Introduction à l’analyse numérique matricielle et à l’op-

timisation, cinquième édition, Dunod, 1998
[B OYD & VANDENBERGHE] Stephen B OYD and Lieven VANDENBERGHE Convex Opti-
mization, Cambridge University Press, 2004.
Ouvrage téléchargeable gratuitement ici :
http://stanford.edu/~boyd/cvxbook/
[A LLAIRE & K ABER] Grégoire A LLAIRE et Sidi Mahmoud K ABER, Algèbre linéaire nu-
mérique, Ellipses, 2002

La page web dédiée à ce cours est ici :

http://w3.mi.parisdescartes.fr/~bgalerne/m1_optimisation/

3
Chapitre 1

Rappels et compléments de calculs

différentiels

Les références principales pour ce chapitre sont le chapitre A.4 de [B OYD & VANDENBERGHE]
et le chapitre 7 de [C IARLET]. Dans ce cours on se placera toujours sur des espaces vectoriels
normés de dimensions finis que l’on identifie à Rn , n > 1.

1.1 Cadre et notation

n et m sont des entiers supérieurs ou égaux à 1. Par convention les vecteurs de Rn sont
des vecteurs colonnes. On note h·, ·i le produit scalaire canonique et k · k la norme euclidienne
associée. On note Mm,n (R) l’ensemble des matrices de taille m × n à coefficients réelles et
Mn (R) = Mn,n (R) l’ensemble des matrices carrées de taille n × n. La transposée d’une
matrice A est notée AT . On a donc pour tous x, y ∈ Rn , hx, yi = xT y et par conséquent, pour
tout A ∈ Mm,n (R), x ∈ Rn , y ∈ Rm ,
hy, Axi = hAT y, xi.
Remarque (Notation de la transposée). La notation AT correspond plutôt à une convention
anglo-saxonne. Elle a été choisie pour ce polycopié car elle est plus simple à taper en LATEXet
est plus proche de l’opération transposée en octave, notée A’. Toutefois les étudiants sont libres
d’utiliser la notation classique t A pour leurs prises notes et leurs copies d’examen.

1.2 Différentielle et gradient

1.2.1 Applications linéaires et matrices associées
On désigne par L(Rn , Rm ) l’ensemble des applications linéaires de Rn dans Rm . On iden-
tifie un élément de L(Rn , Rm ) à une matrice rectangulaire de taille m × n correspondant à la
matrice de l’application dans les bases canoniques de Rn et Rm : si ϕ ∈ L(Rn , Rm ) alors pour
tout x ∈ Rn , ϕ(x) = Ax avec A la matrice dont les colonnes sont les images par ϕ des vecteurs
de la base canonique (e1 , . . . , en ) de la base canonique de Rn ,
 
! x
X n Xn
 .1 
ϕ(x) = ϕ xk ek = xk ϕ(ek ) = ϕ(e1 ) · · · ϕ(en )  ..  = Ax.
k=1 k=1 xn

4
1.2.2 Différentielle
Dans tout ce chapitre, Ω désigne un ensemble ouvert de Rn .
Définition 1.1. Soit f : Ω → Rm . La fonction f est différentiable au point x ∈ Ω si il existe
une matrice df (x) ∈ Mm,n (R) telle que au voisinage de x on ait

f (y) = f (x) + df (x)(y − x) + ky − xkε(y − x)

avec lim ε(y−x) = 0, i.e., ky−xkε(ky−xk) = o (ky−xk). On appelle df (x) la différentielle

y→x y→x
de f au point x, ou encore la matrice jacobienne de f au point x. On dit que f est différentiable
si f est différentiable en tout point de Ω. On dit que f est continûment différentiable si f est
différentiable et l’application x 7→ df (x) est continue.
La fonction affine f (y) = f (x) + df (x)(y − x) est l’approximation à l’ordre 1 de f au point
x. La différentielle peut être calculée à partir des dérivées partielles des composantes de f : Si on
note f = (f1 , . . . , fm )T les composantes de f , alors pour tout (i, j) ∈ {1, . . . , m} × {1, . . . , n},
∂fi
(df (x))i,j = (x).
∂xj

Exercice 1.2. Soit A une matrice de Mm,n (R) et b ∈ Rm . Montrer que la fonction f : Rn →
Rm définie par f (x) = Ax + b est différentiable sur Rn et calculer sa différentielle en tout point
x ∈ Rn . En déduire que f est C 1 (et même C ∞ ) sur Rn .
Solution de l’exercice 1.2. Pour tous x, h ∈ Rn ,

f (x + h) = A(x + h) + b = f (x) + Ah

donc f est différentiable en x et df (x) = A. Comme x 7→ df (x) est constante, c’est une
application C ∞ donc f est aussi C ∞ .

1.2.3 Gradient
Dans ce cours on s’intéressera plus particulièrement à des fonctions à valeurs réelles, ce qui
correspond au cas m = 1. La matrice jacobienne de f : Ω → R est alors une matrice ligne de
taille 1 × n. La transposée de cette matrice est un vecteur de Rn appelé gradient de f au point
x et noté ∇f (x). Pour tout h ∈ Rn ,

df (x)h = ∇f (x)T h = h∇f (x), hi.

Ainsi, pour f : Ω → R, f est différentiable si et seulement si il existe un vecteur ∇f (x) tel que

f (y) = f (x) + h∇f (x), y − xi + ky − xkε(y − x) avec lim ε(y − x) = 0.

y→x

∇f (x) s’interprète comme le vecteur de plus forte augmentation de f au voisinage de x. En

particulier, ∇f (x) est orthogonal au ligne de niveaux de la fonction f .
Exercice 1.3. Soit A une matrice de Mn (R). Soit f : Rn → R l’application f : x 7→ 21 hAx, xi.
1. Montrer que f est différentiable sur Rn et déterminer ∇f (x) pour tout x.
2. Quelle est l’expression de ∇f si A est symétrique ?

5
3. Quel est le gradient de l’application x 7→ 21 kxk2 ?
Solution de l’exercice 1.3.
1. Pour tous x, h ∈ Rn ,
1
f (x + h) = hA(x + h), x + hi
2
1 1 1 1 1 1
= hAx, xi + hAx, hi + hAh, xi + hAh, hi = f (x) + h(A + AT )x, hi + hAh, hi.
2 2 2 2 2 2
Or par Cauchy-Shwarz, | 12 hAh, hi| 6 21 kAhkkhk 6 12 kAkMn (R) khk2 , donc c’est bien en
o de khk. D’où f est différentiable en tout point x ∈ Rn et
1
∇f (x) = (A + AT )x.
2

2. Si A est symétrique, alors ∇f (x) = 12 (A + AT )x = Ax.

3. C’est le cas particulier où A = In qui est symétrique, donc ∇f (x) = x.

1.2.4 Dérivation des fonctions composées

Théorème 1.4 (Dérivation des fonctions composées). Soient f : Rn → Rm et g : Rm → Rp
deux fonctions différentiables. Soit h = g ◦ f : Rn → Rp la fonction composée définie par
h(x) = g(f (x)). Alors h est différentiable sur Rn et pour tout x ∈ Rn ,

dh(x) = dg(f (x))df (x).

Remarque. On peut énoncer une version locale du résultat précédent car, comme le suggère
la formule dh(x) = dg(f (x))df (x), pour que h soit différentiable en x, il suffit que f soit
différentiable en x et que g soit différentiable en f (x).
Exemple 1.5. Déterminons le gradient de l’application g : Rn → R définie par

g(x) = f (Ax + b)

où A est une matrice de Mm,n (R), b ∈ Rm et f : Rm → R est une application différentiable.

On a g(x) = f ◦ h(x) avec h(x) = Ax + b. Comme h est affine on a dh(x) = A en tout point
x. On a donc d’après la règle de dérivation des fonctions composées

dg(x) = df (h(x))dh(x) = df (Ax + b)A.

Donc ∇g(x) = dg(x)T = AT df (Ax + b)T = AT ∇f (Ax + b).

1.3 Différentielle d’ordre deux et matrice hessienne

Dans le cadre général où f : Ω → Rm , si f est différentiable alors l’application différentielle
df : x 7→ df (x) est une application de l’ouvert Ω vers l’espace vectoriel L(Rn , Rm ). Si cette
application est elle-même différentiable en x, alors on obtient une différentielle d(df )(x)(·)
qui appartient à L(Rn , L(Rn , Rm )) que l’on identifie à une application bilinéaire d2 f (x) :
Rn × Rn → Rm qui est symétrique d’après le théorème de Schwarz. d2 f (x) est appelée la

6
différentielle d’ordre deux de l’application f au point x. f est deux fois différentiable si elle est
différentiable sur tout Ω. f est deux fois continûment différentiable sur Ω, si f est deux fois dif-
férentiable et si l’application x 7→ d2 f (x) est continue. On note C 2 (Ω) l’ensemble des fonctions
deux fois continûment différentiables.
Dans le cas où m = 1, c’est-à-dire où f : Ω → R est à valeurs réelles, d2 f (x) est une forme
bilinéaire symétrique dont la matrice s’écrit
2
∇2 f (x) = ∂x∂i ∂x
f
j
(x) .
16i,j6n

Cette matrice est appelée matrice hessienne de f au point x. On a alors pour tous vecteurs
h, k ∈ Rn ,
d2 f (x)(h, k) = h∇2 f (x)h, ki = k T ∇2 f (x)h = hT ∇2 f (x)k.
Pour ce cours on aura constamment besoin de calculer le gradient et la matrice hessienne
de fonctionnelles f : Ω → R deux fois différentiables. En pratique on utilise la proposition
suivante.

Proposition 1.6 (La matrice hessienne est la différentielle du gradient). Soit f : Ω → R une
fonction différentiable sur Ω et deux fois différentiable au point x ∈ Ω. Alors, la matrice hes-
sienne ∇2 f (x) de f au point x est la différentielle de l’application gradient x 7→ ∇f (x) au
point x.

Exercice 1.7. Démontrer la Proposition 1.6 ci-dessus.

Solution de l’exercice 1.7. En explicitant avec les dérivées partielles, la différentielle est la
matrice 2
∂ ∂ f
∂xj
(∇f (x))i = ∂xi ∂xj (x) = ∇2 f (x).
16i,j6n 16i,j6n

Il est difficile de donner une règle de dérivation des fonctions composées pour l’ordre deux.
Voici toutefois deux règles à connaître pour ce cours.

Composition avec une fonction scalaire : On considère f : Ω → R une fonction deux fois
différentiable et g : R → R une fonction deux fois dérivable. Alors, h = g ◦ f est deux fois
différentiable et

∇2 h(x) = g 0 (f (x))∇2 f (x) + g 00 (f (x))∇f (x)∇f (x)T .

Composition avec une fonction affine : Soit g : Rn → R définie par

g(x) = f (Ax + b)

où A est une matrice de Mm,n (R), b ∈ Rm et f : Rm → R est une application deux fois
différentiable. Alors g est deux fois différentiable et

∇2 g(x) = AT ∇2 f (Ax + b)A,

formule qui s’obtient facilement en dérivant l’expression ∇g(x) = AT ∇f (Ax + b) montrée

précédemment.

7
1.4 Formules de Taylor
Les formules de Taylor se généralisent aux fonctions de plusieurs variables. On se limite
aux fonctions à valeurs réelles.
Théorème 1.8 (Formules de Taylor pour les fonctions une fois dérivable). Soit f : Ω → R une
fonction.
(a) Définition de la différentielle = Formule de Taylor-Young à l’ordre 1 : Si f est différentiable
en x ∈ Ω, alors
f (x + h) = f (x) + h∇f (x), hi + khkε(h) avec lim ε(h) = 0.
h→0

On considère maintenant un point h fixé tel que le segment [x, x + h] soit inclus dans Ω.
(b) Formule des accroissements finis : Si f est continue sur Ω et différentiable sur ]x, x + h[,
alors
|f (x + h) − f (x)| 6 sup k∇f (y)kkhk.
y∈]x,x+h[

(c) Formule de Taylor-Maclaurin : Si f est continue sur Ω et différentiable sur ]x, x + h[, alors
il existe θ ∈]0, 1[ tel que
f (x + h) = f (x) + h∇f (x + θh), hi.
(d) Formule de Taylor avec reste intégral : Si f ∈ C 1 (Ω) alors
Z 1
f (x + h) = f (x) + h∇f (x + th), hidt.
0

Preuve. On applique les formules de Taylor à la fonction ϕ(t) = f (x + th), t ∈ [0, 1].
Théorème 1.9 (Formules de Taylor pour les fonctions deux fois dérivable). Soit f : Ω → R
une fonction.
(a) Formule de Taylor-Young à l’ordre 2 : Si f est différentiable dans Ω et deux fois différen-
tiable en x ∈ Ω, alors
1
f (x + h) = f (x) + h∇f (x), hi + h∇2 f (x)h, hi + khk2 ε(h) avec lim ε(h) = 0.
2 h→0

On considère maintenant un point h fixé tel que le segment [x, x + h] soit inclus dans Ω.
(b) Formule des accroissements finis généralisée : Si f ∈ C 1 (Ω) et f est deux fois différentiable
sur ]x, x + h[, alors
1
|f (x + h) − f (x) − h∇f (x), hi| 6 sup k∇2 f (y)kMn (R) khk2 .
2 y∈]x,x+h[
où k · kMn (R) désigne la norme subordonnée des matrices pour la norme euclidienne.
(c) Formule de Taylor-Maclaurin : Si f ∈ C 1 (Ω) et f est deux fois différentiable sur ]x, x + h[,
alors il existe θ ∈]0, 1[ tel que
1
f (x + h) = f (x) + h∇f (x), hi + h∇2 f (x + θh)h, hi.
2
(d) Formule de Taylor avec reste intégral : Si f ∈ C 2 (Ω) alors
Z 1
f (x + h) = f (x) + h∇f (x), hi + (1 − t)h∇2 f (x + th)h, hidt.
0

8
Chapitre 2

Problèmes d’optimisation : Existence et

unicité des solutions

La référence principale pour ce chapitre est le chapitre 8 de [C IARLET].

2.1 Cadre et vocabulaire

On appelle problème d’optimisation tout problème de la forme

Trouver x? tel que x? ∈ U et f (x? ) = min f (x),

x∈U

où U est une partie donnée de Rn et f : Rn → R est une fonction donnée que l’on appelle fonc-
tionnelle du problème d’optimisation. Le but de l’optimisation est de proposer des algorithmes
permettant d’approcher les solutions x? au sens où, partant d’un vecteur initial x(0) quelconque,
on construit explicitement une suite de vecteurs (x(k) )k>0 convergeant vers une solution x? .
Le problème d’optimisation est dit sans contraintes si U = Rn et sous contraintes sinon.
On dit que le problème est convexe si f et U sont convexes.
Dans ce cours on s’intéressera à résoudre des problèmes d’optimisation convexes, sans
contraintes, et de dimension finie.
On établira dans ce chapitre des conditions d’existence et d’unicité des solutions de pro-
blèmes d’optimisation. Dans les chapitres suivants, on s’intéressera à l’élaboration d’algo-
rithmes itératifs pour la résolution effectives de tels problèmes d’optimisation convexes, sans
contraintes et de dimension finie.
Bien sûr, les méthodes développées dans ce cours permettent également de trouver les va-
leurs maximales de fonctions f . Pour cela il suffit de remplacer f par −f puisque

max f (x) = min −f (x).

x∈U x∈U

Extremums des fonctions réelles Soit f : U → R, où U ⊂ Rn . On dit que la fonction f

admet en un point x ∈ U un minimum local (respectivement un maximum local) s’il existe un
ε > 0 tel que pour tout y ∈ U ∩ B(x, ε), f (y) > f (x) (resp. f (y) 6 f (x)). On dit que la
fonction admet un extremum local en x si elle admet soit un minimum soit un maximum local
en x.
Par abus de langage, on dira que x est un minimum local pour dire que la fonction f admet
un minimum local en x.

9
On dit qu’un minimum local x est strict s’il existe un ε > 0 tel que pour tout y ∈ U ∩B(x, ε),
y 6= x, f (y) > f (x). On définit de même la notion de maximum strict.
Enfin, on dit qu’un minimum x est global si pour tout y ∈ U , f (y) > f (x). Si W ⊂ U , on
dira qu’un minimum x ∈ W est global sur W si pour tout y ∈ W , f (y) > f (x). On défini de
même la notion de maximum global.

2.2 Existence de solutions pour les fonctions coercives et conti-

nues
La première question concernant un problème d’optimisation est celle de l’existence d’une
solution. Si on cherche à minimiser une fonction f : U ⊂ Rn → R continue sur U , alors il
est bien connue que si U est compact (i.e. fermé et borné) la fonction f est bornée et atteint
ses bornes sur U . Elle admet donc au moins un minimum global x? ∈ U . La notion de fonction
coercive permet d’étendre ce type de raisonnement pour des fonctions définies sur des domaines
non bornés.

Définition 2.1 (Fonctions coercives). Une fonction f : Rn → R est dite coercive si

lim f (x) = +∞.

kxk→+∞

Théorème 2.2. Soient U une partie non vide fermée de Rn et f : Rn → R une fonction
continue, coercive si l’ensemble U est non borné. Alors il existe au moins un élément x? ∈ U
tel que
f (x? ) = inf f (x).
x∈U

Preuve. Soit x0 un point quelconque de U . La coercivité de f entraîne qu’il existe un réel r > 0
tel que
kxk > r ⇒ f (x) > f (x0 ).
Donc,
inf f (x) = inf f (x).
x∈U x∈U ∩B(0,r)

Comme l’ensemble U ∩ B(0, r) est fermé et borné et que f est continue, f est bornée et atteint
ses bornes sur le compact U ∩ B(0, r), ce qui assure l’existence d’un minimum (global) dans U
(qui est inclus dans U ∩ B(0, r)).

2.3 Extremums locaux et dérivabilité

On va maintenant chercher à caractériser les minimums locaux des fonctions différentiables.
Dans toute la suite du chapitre Ω désigne un sous-ensemble ouvert de Rn .

Théorème 2.3 (Condition nécessaire d’extremum local). Soit f : Ω → R une fonction à valeurs
réelles. Si la fonction f admet un extremum local en un point x ∈ Ω et si elle est différentiable
en ce point, alors
∇f (x) = 0 (ou encore df (x) = 0).

On dit qu’un point x est un point critique de la fonctionnelle f si ∇f (x) = 0.

10
Exercice 2.4.
1. Prouver le Théorème 2.3 en considérant l’application ϕ : t 7→ f (x + th) pour un vecteur
h ∈ Rn quelconque.
2. Montrer que la conclusion du théorème est fausse si Ω n’est pas un ouvert.
3. Montrer que la réciproque du théorème est fausse : ∇f (x) = 0 n’implique pas que x soit
un extremum local.
Solution de l’exercice 2.4.
1. Soit h ∈ Rn . Comme Ω est un ouvert, il existe ε > 0, tel que pour tout t ∈] − ε, ε[,
x + th ∈ Ω. La fonction ϕ : t 7→ f (x + th) est donc définie sur ] − ε, ε[. Elle est dérivable
en t = 0, et d’après la formule de dérivation des fonctions composées, ϕ0 (0) = df (x)h =
h∇f (x), hi. ϕ ayant un extremum en t = 0, on sait que ϕ0 (0) = 0 (en utilisant le cas bien
connu des fonctions réelles de la variable réelle). On en déduit que h∇f (x), hi = 0. Ceci
est vrai pour tout h ∈ Rn , donc on a bien ∇f (x) = 0.
2. On considère par exemple pour n = 1, f (x) = x sur le domaine fermé Ω = [0, 1] qui
admet un minimum local en x = 0 (au bord du domaine...).
3. Par exemple, toujours sur R, f (x) = x3 a une dérivée nulle en 0 mais 0 n’est pas un
extremum.
On s’intéresse maintenant aux conditions nécessaires et suffisantes faisant intervenir la dé-
rivée seconde.
Théorème 2.5 (Condition nécessaire de minimum local pour la dérivée seconde). Soit f : Ω →
R une fonction différentiable dans Ω. Si la fonction f admet un minimum local en un point
x ∈ Ω et si f est deux fois différentiable en x, alors pour tout h ∈ Rn ,

h∇2 f (x)h, hi > 0 (ou encore d2 f (x)(h, h) > 0),

autrement dit la matrice hessienne ∇2 f (x) est positive.

Preuve. Soit h ∈ Rn . Il existe un intervalle ouvert I ⊂ R contenant l’origine tel que

t ∈ I ⇒ (x + th) ∈ Ω et f (x + th) > f (x).

La formule de Taylor-Young donne

t2 2
f (x + th) = f (x) + th∇f (x), hi + h∇ f (x)h, hi + t2 khk2 ε(th)
2
avec lim ε(y) = 0. Comme x est un minimum dans l’ouvert Ω, d’après le Théorème 2.3 on a
y→0
∇f (x) = 0. Ainsi,

t2 2
0 6 f (x + th) − f (x) = h∇ f (x)h, hi + t2 khk2 ε(th)
2
t2
En divisant par 2
on en déduit que pour tout t 6= 0,

∇2 f (x)h, hi + 2khk2 ε(th) > 0.

En faisant tendre t vers 0 on obtient bien que h∇2 f (x)h, hi > 0.

11
Comme le montre le résultat suivant, la dérivée seconde permet souvent de déterminer la
nature d’un point critique, c’est-à-dire de déterminer si un point critique est bien un minimum
local, un maximum local, ou ni l’un ni l’autre.
Théorème 2.6 (Condition suffisante de minimum local pour la dérivée seconde). Soit f : Ω →
R une fonction différentiable dans Ω et x un point critique de f (i.e. tel que ∇f (x) = 0).
(a) Si la fonction f est deux fois différentiable en x et si
∀h ∈ Rn \ {0}, h∇2 f (x)h, hi > 0
(i.e. la matrice hessienne ∇2 f (x) est définie positive), alors la fonction f admet un mini-
mum local strict en x.
(b) Si la fonction f est deux fois différentiable dans Ω, et s’il existe une boule B ⊂ Ω centrée
en x telle que
∀y ∈ B, ∀h ∈ Rn , h∇2 f (y)h, hi > 0
alors la fonction f admet en minimum local en x.
Preuve. (a) Comme ∇2 f (x) est définie positive, il existe un nombre α > 0 tel que
∀h ∈ Rn , h∇2 f (x)h, hi > αkhk2
(en prenant par exemple α = λmin (∇2 f (x)) la plus petite valeur propre de ∇2 f (x)).
D’après la formule de Taylor-Young,
1 1
f (x + h) = f (x) + h∇f (x), hi + h∇2 f (x)h, hi + khk2 ε(h) > f (x) + ( α − |ε(h)|)khk2
2 2
avec lim ε(h) = 0. Soit r > 0 tel que pour tout h ∈ B(0, r), |ε(h)| < 12 α. Alors, pour tout
h→0
h ∈ B(0, r), f (x + h) > f (h), donc x est bien un minimum strict.
(b) Soit h tel que x + h ∈ B. Alors, comme f est deux fois différentiable, d’après la formule
de Taylor-Maclaurin il existe y ∈]x, x + h[ tel que
1 1
f (x + h) = f (x) + h∇f (x), hi + h∇2 f (y)h, hi = f (x) + h∇2 f (y)h, hi,
2 2
donc f (x + h) > f (x) pour tout h tel que x + h ∈ B, x est bien un minimum local de f .

2.4 Ensembles convexes

On rappelle qu’étant donnés deux vecteurs x et y ∈ Rn , [x, y] désigne le segment entre x et
y, à savoir
[x, y] = {θx + (1 − θ)y, θ ∈ [0, 1]}.
Définition 2.7 (Ensembles convexes). On dit qu’un ensemble U ⊂ Rn est convexe si
∀x, y ∈ U, [x, y] ⊂ U,
soit encore si
∀x, y ∈ U, ∀θ ∈ [0, 1], θx + (1 − θ)y ∈ U.
(autrement dit U contient tout segment rejoignant n’importe quel couple de ses points).

12
Voici quelques exemples d’ensembles convexes :
— Un sous-espace vectoriel est convexe
— Un hyperplan est convexe.
— La boule unité d’une norme est convexe.
— Toute intersection d’ensembles convexes est convexe.
— Un hyper-rectangle [a1 , b1 ] × · · · × [an , bn ] est convexe. Plus généralement le produit
cartésien C = C1 × · · · × Ck d’ensembles convexes C1 ⊂ Rn1 , . . . , Cn ⊂ Rnk est un
ensemble convexe de l’espace produit Rn1 × · · · × Rnk .
— L’image d’un ensemble convexe par une application linéaire est convexe (voir exer-
cice ci-dessous). En particulier, les translations, rotations, dilatations, projections d’en-
sembles convexes sont convexes.
Exercice 2.8. Soit ϕ : Rn → Rm une application linéaire.
1. Montrer que si U ⊂ Rn est convexe alors l’image directe W = ϕ(U ) = {ϕ(x), x ∈ U }
de U par ϕ est un ensemble convexe de Rm .
2. Montrer que si W ⊂ Rm est un ensemble convexe alors l’image réciproque U = ϕ−1 (W ) =
{x ∈ Rn , ϕ(x) ∈ W } est un ensemble convexe de Rn .
Solution de l’exercice 2.8.
1. Soient y1 et y1 ∈ W . Alors il existe x1 et x2 dans U tel que y1 = ϕ(x1 ) et y2 = ϕ(x2 ).
Soit θ ∈ [0, 1]. Alors, par linéarité,
θw1 + (1 − θ)w2 = θϕ(x1 ) + (1 − θ)ϕ(x2 ) = ϕ(θx1 + (1 − θ)x2 ).
Or comme U est convexe, θx1 + (1 − θ)x2 ∈ U , et donc, θy1 + (1 − θ)y2 ∈ W = ϕ(U ).
W = ϕ(U ) est bien un ensemble convexe.
2. Soient x1 et x2 ∈ U = ϕ−1 (W ) et θ ∈ [0, 1]. Comme W est convexe
ϕ(θx1 + (1 − θ)x2 ) = θϕ(x1 ) + (1 − θ)ϕ(x2 ) ∈ W.
Donc θx1 + (1 − θ)x2 ∈ U = ϕ−1 (W ), c’est bien un ensemble convexe.
Théorème 2.9 (Condition nécessaire de minimum local sur un ensemble convexe). Soit f :
Ω → R et U une partie convexe de Ω. Si la fonction f est différentiable en un point x ∈ U et si
elle admet en x un minimum local par rapport à l’ensemble U , alors
∀y ∈ U, h∇f (x), y − xi > 0 (ou encore df (x)(y − x) > 0.
En particulier si U est un sous-espace affine de Rn (c’est-à-dire U = x + F avec F un sous-
espace vectoriel de V ), alors
∀y ∈ U, h∇f (x), y − xi = 0 (ou encore df (x)(y − x) = 0.
Preuve. Soit y = x + h un point quelconque de l’ensemble U . U étant convexe, les points
x + θh, θ ∈ [0, 1], sont tous dans U . La dérivabilité de f en x permet d’écrire
f (x + θh) − f (x) = θh∇f (x), hi + θkhkε(θh),
avec limθ→0 ε(θh) = 0. Comme le membre de gauche est positif, on a nécessairement h∇f (x), hi =
h∇f (x), y −xi > 0 (dans le cas contraire pour θ assez petit le membre de droite serait < 0). Les
cas des sous-espaces affines U = u + F , on remarque que si x + h ∈ U alors x − h appartient
également à U et donc on a la double inégalité h∇f (x), hi > 0 et h∇f (x), −hi > 0 et donc
h∇f (x), hi = 0.

13
Remarque. L’interprétation géométrique du théorème précédent est très importante. Si u est
un minimum local par rapport au convexe U tel que ∇f (u) 6= 0, alors ∇f (u) est orienté vers
l’intérieur du convexe. En effet, la condition h∇f (u), v − ui > 0 signifie que l’angle formé par
les vecteurs ∇f (u) et v − u est un angle aigu. Dans le cas d’un espace affine U = u + F , cela
revient à une condition d’orthogonalité ∇f (u) ∈ F ⊥ . Dans ce cours on ne considérera pas de
problème de minimisation sous contrainte convexe. En revanche, on sera amené à constamment
minimiser des fonctionnelles sur des sous-espaces affines, et en premier lieu des droites.

2.5 Fonctions convexes

2.5.1 Définition et exemples
Définition 2.10 (Fonctions convexes). Soit U ⊂ Rn un ensemble convexe. Soit f : U → R une
fonction à valeurs réelles.
— f est convexe si

∀x, y ∈ U, ∀θ ∈ [0, 1], f (θx + (1 − θ)y) 6 θf (x) + (1 − θ)f (y).

— f est strictement convexe si

∀x, y ∈ U, x 6= y, ∀θ ∈]0, 1[, f (θx + (1 − θ)y) < θf (x) + (1 − θ)f (y).

Une fonction f est (strictement) concave si son opposée x 7→ −f (x) est (strictement) convexe.

Remarque. On peut également restreindre θ à ]0, 1[ pour la définition de la convexité.

Voici quelques exemples de fonctions convexes :

— Sur R, la fonction x 7→ x2 est strictement convexe.
— Sur R, la fonction x 7→ |x| est convexe mais pas strictement convexe.
— De même, sur Rn , la fonction x 7→ kxk2 est strictement convexe la fonction x 7→ kxk
est convexe mais pas strictement convexe.
— Le sup d’une famille quelconque de fonctions convexes est convexe.
— La composée d’une fonction affine et d’une fonction convexe est convexe (voir ci-
dessous).
— Sur Rn , les fonctions affines f (x) = ha, xi + b (avec a ∈ Rn et b ∈ R) sont les seules
fonctions à la fois convexes et concaves (voir Exercice 2.20).

Exercice 2.11. Soient A ∈ Mm,n (R) et b ∈ Rm . Montrer que si f : Rm → R est convexe alors
la fonction g : Rn → R définie par g(x) = f (Ax + b) est également convexe.

Solution de l’exercice 2.11. Soient x, y ∈ Rn et θ ∈ [0, 1]. On a, par linéarité puis convexité,

g(θx+(1−θ)y) = f (θ(Ax+b)+(1−θ)(Ay+b)) 6 θf (Ax+b)+(1−θ)f (Ay+b) = θg(x)+(1−θ)g(y).

Donc g est bien convexe.

Théorème 2.12 (Continuité des fonctions convexes). Soit U ⊂ Rn un ensemble convexe d’in-
térieur non vide et f : U → R une fonction convexe sur U . Alors f est continue sur l’intérieur
de U .

14
On admet la preuve de ce résultat qui se démontre en revenant au cas des fonctions de la
variable réelle en restreignant f dans chaque direction. On notera qu’une fonction convexe peut
être discontinue au bord de son domaine (par valeur supérieure).
Etant donnée une fonction f : U ⊂ Rn → R, on appelle sous-ensemble de niveau α de f
l’ensemble
Cα = {x ∈ U, f (x) 6 α}.
Proposition 2.13. Soit U ⊂ Rn un ensemble convexe et f : U → R une fonction convexe sur
U . Alors pour tout α ∈ R, l’ensemble Cα est convexe. En particulier, l’ensemble des minimums
globaux de f est un ensemble convexe (qui peut être vide).
Preuve. Soit α ∈ R. Soient x1 et x2 dans Cα et θ ∈ [0, 1]. Alors, comme f est convexe,

f (θx1 + (1 − θ)x2 ) 6 θf (x1 ) + (1 − θ)f (x2 ) 6 θα + (1 − θ)α = α

donc θx1 + (1 − θ)x2 ∈ Cα ce qui prouve bien que Cα est convexe. L’ensemble des minimums
globaux de f n’est autre que le sous-ensemble de niveau p∗ = inf f (x) de f , et il est donc bien
x∈U
convexe.
Remarque. La réciproque de la proposition précédente est fausse. Il existe des fonctions non
convexes dont tous les sous-ensembles de niveaux sont convexes, comme par exemple x 7→
−e−x sur R. Un autre exemple : Sur R, tous les ensembles de niveaux de la fonction 1[0,+∞[
sont convexes mais cette fonction n’est pas convexe. En effet,

∅
 si α < 0,
Cα = {x ∈ R, 1[0,+∞[ (x) 6 α} = ] − ∞, 0[ si α ∈ [0, 1[,

si α > 1,

R

qui sont bien tous des ensembles convexes. En revanche la fonction n’est pas convexe car par
exemple
1 1 1
1 = f (0) > f (1) + f (−1) = .
2 2 2

2.5.2 Caractérisation des fonctions convexes différentiables et deux fois

différentiables
Avant de considérer l’influence de la convexité sur l’existence et l’unicité de minimums,
nous donnons des caractérisations de la notion de convexité pour les fonctions différentiables et
deux fois différentiables.
Le théorème ci-dessous exprime le fait qu’une fonction différentiable est convexe si et seule-
ment si son graphe est au-dessus de chacun des ses plans tangents.
Théorème 2.14 (Convexité et dérivabilité première). Soit f : Ω → R une fonction différen-
tiable dans l’ouvert Ω et soit U ⊂ Ω un sous-ensemble convexe.
(a) La fonction f est convexe sur U si et seulement si pour tout x, y ∈ U ,

f (y) > f (x) + h∇f (x), y − xi (ou encore f (y) > f (x) + df (x)(y − x)).

(b) La fonction f est strictement convexe sur U si et seulement si pour tout x, y ∈ U , x 6= y,

f (y) > f (x) + h∇f (x), y − xi (ou encore f (y) > f (x) + df (x)(y − x)).

15
Preuve. (a) : ⇒ : Soient x, y deux points distincts de U et θ ∈]0, 1[. Comme f est convexe,

f ((1 − θ)x + θy) 6 (1 − θ)f (x) + θf (y)

et on a donc
f (x + θ(y − x)) − f (x)
6 f (y) − f (x).
θ
En passant à la limite θ → 0 on a

f (x + θ(y − x)) − f (x)

h∇f (x), y − xi = lim 6 f (y) − f (x).
θ→0 θ
⇐ : Réciproquement supposons que pour tout x, y ∈ U ,

f (y) > f (x) + h∇f (x), y − xi.

Soient x, y deux points distincts de U et θ ∈]0, 1[. En appliquant l’inégalité aux deux couples
(θx + (1 − θ)y, y) et (θx + (1 − θ)y, x) on a

f (y) > f (θx + (1 − θ)y) + h∇f (θx + (1 − θ)y), θ(y − x)i,

et
f (x) > f (θx + (1 − θ)y) + h∇f (θx + (1 − θ)y), (1 − θ)(x − y)i.
En multipliant par (1 − θ) et θ ces deux inégalités, on obtient en les sommant

θf (x) + (1 − θ)f (y) > f (θx + (1 − θ)y),

donc f est bien convexe.

(b) : La preuve de l’implication indirecte est identique en remplaçant les inégalités larges
par des inégalités strictes. En revanche pour l’implication directe, le passage à la limite change
les inégalités strictes en inégalités larges, donc on ne peut pas conclure aussi rapidement. Pour
cela on se donne cette fois-ci deux poids 0 < θ < ω < 1. Alors, comme f est strictement
convexe et (1 − θ)x + θy ∈ [x, (1 − ω)x + ωy] avec

ω−θ θ
(1 − θ)x + θy = x + ((1 − ω)x + ωy)
ω ω
ω−θ θ
f ((1 − θ)x + θy) < f (x) + f ((1 − ω)x + ωy).
ω ω
D’où,
f (x + θ(y − x)) − f (x) f (x + ω(y − x)) − f (x)
< < f (y) − f (x).
θ ω
En passant à la limite θ → 0 on a alors

f (x + ω(y − x)) − f (x)

h∇f (x), y − xi 6 < f (y) − f (x).
ω

Théorème 2.15 (Convexité et dérivabilité seconde). Soit f : Ω → R une fonction deux fois
différentiable et soit U ⊂ Ω un sous-ensemble convexe.

16
(a) La fonction f est convexe sur U si et seulement si pour tout x, y ∈ U ,

h∇2 f (x)(y − x), y − xi > 0

(b) Si pour tout x, y ∈ U , x 6= y,

h∇2 f (x)(y − x), y − xi > 0

alors f est strictement convexe sur U .

En particulier, si Ω = U est un ouvert convexe, alors
(a) f est convexe sur Ω si et seulement si pour tout x ∈ Ω la matrice hessienne ∇2 f (x) est
positive.
(b) Si pour tout x ∈ Ω la matrice hessienne ∇2 f (x) est définie positive, alors f est strictement
convexe sur Ω.
Preuve. Soient x et y = x + h deux points distincts de U . Alors, comme f est deux fois
différentiable, d’après la formule de Taylor-Maclaurin il existe z ∈]x, x + h[ tel que
1
f (x + h) = f (x) + h∇f (x), hi + h∇2 f (z)h, hi.
2
Mais z ∈]x, x+h[, donc il existe θ ∈]0, 1[ tel que z = θx+(1−θ)y, soit z−x = (1−θ)(y−x) =
(1 − θ)h. Ainsi
1 1
f (x + h) = f (x) + h∇f (x), hi + h∇2 f (z)(z − x), (z − x)i.
2 (1 − θ)2

Si par hypothèse h∇2 f (z)(z − x), (z − x)i est positif (resp. strictement positif) on déduit du
théorème de caractérisation des fonctions convexes différentiables que f est convexe (resp.
strictement convexe).
Il reste à montrer que si f est convexe alors pour tout x, y ∈ U , h∇2 f (x)(y − x), y − xi > 0.
Soient x, y = x + h ∈ U . En appliquant la formule de Taylor-Young en x pour l’accroissement
th (avec t ∈ [0, 1]),

t2 2
f (x + th) = f (x) + th∇f (x), hi + h∇ f (x)h, hi + t2 khk2 ε(th)
2
avec limt→0 ε(th) = 0. Donc

t2
h∇2 f (x)h, hi + 2khk2 ε(th)

0 6 f (x + th) − f (x) − th∇f (x), hi =
2
et on en déduit que h∇2 f (x)h, hi > 0 avec le raisonnement habituel.
Le cas où U = Ω est une conséquence directe. On peut aussi le démontrer rapidement en
étudiant la différence entre f et ses approximations au premier ordre. En effet, pour x ∈ Ω,

g(y) = f (y) − f (x) − h∇f (x), y − xi

est une fonction convexe (en tant que somme de fonctions convexes), deux fois différentiable et
telle que ∇2 f (y) = ∇2 g(y). Comme g(y) > 0 et que g(x) = 0, x est un minimum global de f
et donc nécessairement pour tout h ∈ Rn , h∇2 f (x)h, hi > 0.

17
2.5.3 Problèmes d’optimisation convexes
On rappelle qu’une problème d’optimisation
Trouver x? tel que x? ∈ U et f (x? ) = min f (x),
x∈U

est dit convexe si U et f sont convexes. Vis-à-vis de l’optimisation, la convexité joue un rôle cru-
cial puisqu’elle permet d’assurer qu’un minimum local est en fait un minimum global, comme
précisé par le résultat suivant.
Théorème 2.16 (Minimum de fonctions convexes). Soit U ⊂ Rn un ensemble convexe.
(a) Si une fonction convexe f : U → R admet un minimum local en un point x, elle y admet
en fait un minimum global sur U .
(b) Une fonction f : U → R strictement convexe admet au plus un minimum local qui est en
fait un minimum global strict.
(c) Soit f : Ω → R une fonction convexe définie sur un ouvert convexe Ω ⊂ Rn . Alors un point
x ∈ Ω est un minimum global de f si et seulement si ∇f (x) = 0 (ou encore df (x) = 0).
(d) Soit f : Ω → R une fonction définie sur un ouvert Ω contenant U et telle que f est convexe
sur U . Alors x ∈ U est un minimum de f sur U si et seulement si pour tout y ∈ U ,
h∇f (x), y − xi > 0 (ou encore df (x)(y − x) > 0.
En particulier, si U = x + F est un sous-espace affine, alors x ∈ U est un minimum de f
sur U si et seulement si pour tout y ∈ U ,
h∇f (x), y − xi = 0 (ou encore df (x)(y − x) = 0.
Preuve. (a) Soit y un point quelconque de U . Comme précédemment, la convexité entraîne que
f (x + θ(y − x)) − f (x)
f (y) − f (x) >
θ
pour tout θ ∈]0, 1[. Comme x est un minimum local, il existe un θ0 assez petit tel que f (x +
θ0 (y − x)) − f (x) > 0. Mais alors, f (y) − f (x) > 0, donc x est bien un minimum global.
(b) Si f est strictement convexe et que x est un minimum local de f , alors pour y 6= x le
raisonnement précédent donne l’existence d’un θ0 > 0 tel que
f (x + θ0 (y − x)) − f (x)
f (y) − f (x) > > 0.
θ0
Donc y 6= x implique f (y) > f (x). x est donc bien un minimum strict qui est global et unique.
(c) On sait que ∇f (x) = 0 est une condition nécessaire pour être un minimum global.
Montrons que c’est une condition suffisante si f est convexe. D’après le Théorème 2.14, si
x ∈ Ω est tel que ∇f (x) = 0, alors pour tout y ∈ Ω, f (y) > f (x) + h∇f (x), y − xi = f (x),
donc x est bien un minimum global.
(d) C’est le même raisonnement. La condition est nécessaire d’après le Théorème 2.9, et si
elle est vérifiée, alors d’après le Théorème 2.14 f (y) > f (x) + h∇f (x), y − xi > f (x) donc x
est bien un minimum global sur U .

Remarque. — Une fonction non strictement convexe peut admettre plusieurs minimums
locaux. Cependant, comme on l’a vu, l’ensemble des minimums globaux forme un en-
semble convexe.
— Le théorème précédent est fondamental pour la suite de ce cours. Sauf exception, en
pratique on ne s’intéressera qu’à des problèmes d’optimisation convexes.

18
2.6 Etude des fonctionnelles quadratiques
On appelle fonctionnelle quadratique toute fonction f : Rn → R de la forme
1
f (x) = hAx, xi − hb, xi + c,
2
où A ∈ Mn (R) est une matrice carrée symétrique, b ∈ Rn et c ∈ R. La proposition suivante
résume les propriétés des fonctionnelles quadratiques.
Proposition 2.17 (Propriétés des fonctionnelles quadratiques). Soit f : Rn → R une fonction-
nelle quadratique de la forme f (x) = 12 hAx, xi − hb, xi + c. Alors,
(a) f est C 2 sur Rn (et même C ∞ ).
(b) Pour tout x ∈ Rn ,
∇f (x) = Ax − b et ∇2 f (x) = A.
(c) f est convexe si et seulement si A est positive.
(d) f est strictement convexe si et seulement si A est définie positive.
(e) infn f (x) est fini si et seulement si A est positive et telle que le système linéaire Ax = b
x∈R
admet (au moins) une solution, et alors l’ensemble de solutions de Ax = b est l’ensemble
des minimums globaux de f . Ainsi résoudre le problème d’optimisation associé à f revient
à résoudre le système linéaire Ax = b.
La preuve de cette proposition est l’objet de l’exercice suivant.
Exercice 2.18. On reprend les notations de la Proposition 2.17 et on pose S = {x ∈ Rn , Ax = b}.
1. Montrer que l’on peut toujours supposer que la matrice A est symétrique.
2. Montrer que f est différentiable sur Rn et que pour tout x ∈ Rn , ∇f (x) = Ax − b.
3. En déduire que f ∈ C ∞ (Rn ) et que pour tout x ∈ Rn , ∇2 f (x) = A.
4. Justifier que f est convexe si et seulement si A est positive.
5. Montrer que f est strictement convexe si et seulement si A est définie positive.
6. Montrer qu’il existe x ∈ Rn tel que pour tout y ∈ Rn , y 6= x, f (x) < f (y) si et seulement
si A est définie positive.
7. Montrer qu’il existe x ∈ Rn tel que pour tout y ∈ Rn , f (x) 6 f (y) si et seulement si A
est positive et S 6= ∅.
8. Montrer que si A n’est pas positive, alors infn f (x) = −∞.
x∈R
9. En considérant le projeté orthogonal de b sur le sous-espace vectoriel ker A, montrer que
si A est positive et que S = ∅ alors infn f (x) = −∞.
x∈R

Solution de l’exercice 2.18.

A+AT
1. Si A est quelconque, on remarque que remplacer A par sa partie symétrique 2
ne
change pas la valeur de la fonctionnelle. En effet

hAx, xi = hx, AT xi = hAT x, xi

et donc
1 1 T A + AT
hAx, xi = hAx, xi + hA x, xi = h x, xi.
2 2 2

19
2. On a
1
f (x + h) = f (x) + hAx − b, hi + hAh, hi.
2
Donc f est différentiable en x et ∇f (x) = Ax − b.
3. En déduire que f ∈ C ∞ (Rn ) et que pour tout x ∈ Rn , ∇2 f (x) = A. Comme x 7→ ∇f (x)
est une fonction affine c’est une application C ∞ (Rn ), et donc f est aussi C ∞ (Rn ). On a
bien ∇2 f (x) = A.
4. En utilisant la caractérisation des fonctions convexes deux fois dérivables, f est convexe
si et seulement si pour tout x ∈ Rn , ∇2 f (x) = A est positive, donc si et seulement si A
est positive.
5. Le fait que pour tout x ∈ Rn , ∇2 f (x) = A soit définie positive implique que f est
strictement convexe. En revanche la réciproque est fausse en générale, une fonction peut
être strictement convexe sans avoir partout une matrice hessienne définie positive (voir
par exemple x 7→ x4 sur R). En revanche, on a une caractérisation pour les fonctions
strictement convexes dérivables.

f est strictement convexe ⇔ ∀x 6= y, f (y) > f (x) + h∇f (x), y − xi

Or, f (y) = (x)+hAx−b, x−yi+ 21 hA(y−x), (y−x)i, donc f (y) > f (x)+h∇f (x), y−xi
si et seulement si hA(y − x), (y − x)i > 0. Comme cela doit être valable pour tout y 6= x,
c’est bien équivalent à A définie positive.
6. Si A est définie positive, alors f est strictement convexe. f admet donc au plus un mi-
nimum qui est stricte. Il est caractérisé par ∇f (x) = 0, soit Ax = b. Comme A est
inversible, ce système linéaire admet une unique solution x = A−1 b. Donc f admet un
unique minimum stricte en x = A−1 b. Réciproquement, si f admet un minimum strict
x ∈ Rn , alors ∇f (x) = Ax − b = 0 et donc pour tout h 6= 0,
1
f (x + h) = f (x) + hAh, hi > f (x).
2
Ainsi, pour tout h 6= 0, hAh, hi > 0, donc A est bien définie positive (en donc f est
strictement convexe).
7. Si A est positive alors f est convexe et les minimums globaux de f sont caractérisés par
∇f (x) = 0, soit Ax = b. Comme S 6= ∅, f admet bien un minimum global en tout x ∈ S.
Réciproquement, si f admet un minimum global x, alors ∇f (x) = Ax − b = 0, donc S
est non vide. De plus, pour tout h,
1
f (x + h) = f (x) + hAh, hi > f (x),
2
donc hAh, hi > 0 pour tout h, A est bien positive.
8. Si A n’est pas positive il existe h tel que hAh, hi < 0. Alors,

t2
f (th) = hAh, hi − thb, hi + c
2
est un trinôme du second degré à coefficient dominant strictement négatif, donc limt→±∞ f (th) =
−∞.

20
9. En considérant le projeté orthogonal de b sur le sous-espace vectoriel ker A, montrer que
si A est positive et que S = ∅ alors infn f (x) = −∞.
x∈R
n
Comme A est symétrique réelle, on a R = ker(A)⊕im(A) où la somme est orthogonale.
Soit b = p + q avec p ∈ ker(A) et q ∈ im(A) la décomposition de b par rapport à cette
somme. Comme S = ∅, b ∈ / im(A), donc p 6= 0. On a alors

f (tp) = −thb, pi + c = −tkpk2 + c

qui tend vers −∞ quand t tend vers +∞.

2.7 Exercices supplémentaires

Exercice 2.19. Soit f : Rn → R une fonction. On appelle épigraphe de f le sous-ensemble de
Rn × R défini par
epi f = {(x, λ) ∈ Rn × R, f (x) 6 λ}.
1. Dans le cas où n = 1, donner une interprétation géométrique de l’épigraphe.
2. Montrer que f est une fonction convexe si et seulement si epi f est un ensemble convexe.

Solution de l’exercice 2.19.

1. Ensemble au-dessus du graphe de f .
2. On suppose que f est convexe. Soient (x1 , λ1 ) et (x2 , λ2 ) deux points de epi f et θ ∈ [0, 1].
Montrons que θ(x1 , λ1 ) + (1 − θ)(x2 , λ2 ) ∈ epi f . Par définition,

θ(x1 , λ1 ) + (1 − θ)(x2 , λ2 ) ∈ epi f ⇔ f (θx1 + (1 − θ)x2 ) 6 θλ1 + (1 − θ)λ2

Or, comme f est convexe,

f (θx1 + (1 − θ)x2 ) 6 θf (x1 ) + (1 − θ)f (x2 ) 6 θλ1 + (1 − θ)λ2 .

Donc on a bien θ(x1 , λ1 ) + (1 − θ)(x2 , λ2 ) ∈ epi f .

Réciproquement, supposons que epi f soit convexe et montrons que f est convexe. Soient
x1 , x2 ∈ V et θ ∈ [0, 1]. (x1 , f (x1 )) et (x2 , f (x2 )) sont deux points de l’épigraphe.
Comme epi f est convexe, θ(x1 , f (x1 )) + (1 − θ)(x2 , f (x2 )) ∈ epi f et donc,

f (θx1 + (1 − θ)x2 ) 6 θf (x1 ) + (1 − θ)f (x2 ).

f est bien une fonction convexe.

Exercice 2.20. Soit f : Rn → R une fonction à la fois convexe et concave, c’est-à-dire telle
que
∀x, y ∈ Rn , ∀θ ∈ [0, 1], f (θx + (1 − θ)y) = θf (x) + (1 − θ)f (y).
Le but cet exercice est de montrer que f est une fonction affine : il existe a ∈ Rn et b ∈ R tels
que f (x) = ha, xi + b. On pose g(x) = f (x) − f (0).
1. Montrer que g est impaire : ∀x ∈ Rn , g(−x) = −g(x).
2. Montrer que g est 1-homogène : ∀x ∈ Rn , ∀λ > 0, f (λx) = λf (x).
3. Montrer que g est linéaire et conclure.

21
Solution de l’exercice 2.20.
1. g est également convexe et concave. On a
1 1
0 = g(0) = g(x) + g(−x) ⇒ g(−x) = −g(x).
2 2

2. Soit x ∈ Rn et λ > 0. Si λ = 1, il n’y a rien à montrer. Si λ ∈]0, 1[, alors

g(λx) = λg(x) + (1 − λ)g(0) = λg(x).

Si λ > 1, alors
1 1 1
g(x) = g(λx) + 1 − g(0) = g(λx).
λ λ λ
Donc on a bien toujours g(λx) = λg(x).
3. D’après les deux premières questions on a g(λx) = λg(x) pour tout x ∈ Rn et λ ∈ R.
Il reste à montrer que ∀x, y ∈ Rn , g(x + y) = g(x) + g(y). Soient x, y ∈ Rn . Alors, en
utilisant l’homogénéité,
1 1
g(x + y) = g(2x) + g(2y) = g(x) + g(y).
2 2
Ainsi g est une forme linéaire. On a donc g(x) = ha, xi avec a ∈ Rn , et donc f (x) =
g(x) + f (0) = ha, xi + f (0) est bien une fonction affine.

22
Chapitre 3

Algorithmes de descente pour des

problèmes sans contraintes

La référence principale pour ce chapitre est le chapitre 9 de [B OYD & VANDENBERGHE].

Dans ce chapitre on s’intéresse à résoudre un problème d’optimisation convexe sans contrainte
de la forme
Trouver x? ∈ Rn tel que f (x? ) = minn f (x),
x∈R

où f : R → R est une fonction convexe et deux fois différentiable (sur Rn ). Si le problème

admet des solutions x? , on note

p? = f (x? ) = minn f (x).

x∈R

Sous ces hypothèses on sait que résoudre le problème d’optimisation revient à résoudre les n
équations non linéaires
 
∂f
 ∂x1 (x1 , . . . , xn )   
0
 ∂f
 
0
(x1 , . . . , xn )  
 

∇f (x) =  2
 ∂x =
 . .
..  .. 
 . 

 ∂f

 0
(x1 , . . . , xn )
∂xn

Afin d’assurer l’existence et l’unicité d’une telle solution, nous allons supposer que f est forte-
ment convexe.

3.1 Forte convexité

Définition 3.1. Soit f : Rn → R une fonction deux fois différentiable. On dit que f est forte-
ment convexe si il existe une constante m > 0 telle que

∀x, h ∈ Rn , h∇2 f (x)h, hi > mkhk2 .

Proposition 3.2 (Propriétés des fonctions fortement convexes). Soit f : Rn → R une fonction
fortement convexe pour la constante m > 0. Alors f vérifie les propriétés suivantes :

23
(a) f est strictement convexe.
(b) Pour tous x, y ∈ Rn ,
m
f (y) > f (x) + h∇f (x), y − xi + ky − xk2 .
2
(c) f est coercive.
(d) f admet un unique minimum global x? .
(e) Pour tout x ∈ Rn ,
1 2
p? > f (x) − k∇f (x)k2 et kx − x? k 6 k∇f (x)k.
2m m

Preuve. (a) Comme pour tout x ∈ Rn , la matrice hessienne ∇2 f (x) est définie positive, f est
strictement convexe d’après le Théorème 2.15 sur les fonctions convexes deux fois diffé-
rentiables.
(b) Soient x, y ∈ Rn . D’après la formule de Taylor-Maclaurin, il existe z ∈]x, y[ tel que
1
f (y) = f (x) + h∇f (x), y − xi + h∇2 f (z)(y − x), y − xi.
2
En appliquant l’inégalité de forte convexité au dernier terme on obtient la minoration an-
noncée.
(c) En prenant x = 0 dans l’inégalité précédente on a
m
f (y) > f (x) + h∇f (0), yi + kyk2 .
2
Cette fonction minorante est coercive, donc f est elle aussi coercive.
(d) f est strictement convexe et coercive, elle admet donc un unique minimum global.
(e) Soit x ∈ Rn . Alors, pour tout y ∈ Rn ,
m
f (y) > f (x) + h∇f (x), y − xi + ky − xk2 .
2
Le terme de droite est une fonction quadratique de la variable y qui est minimale en y ? =
x − m1 ∇f (y) et cette valeur minimale vaut f (x) − 2m
1
k∇f (x)k2 (à reprendre en détails dans
l’exercice qui suit). Ainsi, on a pour tout y ∈ Rn ,
1
f (y) > f (x) − k∇f (x)k2 .
2m
En prenant y = x? on a
1
p? > f (x) − k∇f (x)k2 .
2m

Exercice 3.3. Soit f : Rn → R une fonction convexe deux fois différentiable. On suppose qu’il
existe M tel que
∀x, h ∈ Rn , h∇2 f (x)h, hi 6 M khk2 ,
autrement dit k∇2 f (x)kMn (R) 6 M .

24
1. Montrer que pour tous x, y ∈ Rn ,
M
f (y) 6 f (x) + h∇f (x), y − xi + ky − xk2 .
2

2. Pour x fixé on pose g(y) = f (x) + h∇f (x), y − xi + M2 ky − xk2 . Montrer que g admet
un unique minimum y ? sur Rn et calculer la valeur minimale de g.
3. On suppose que f admet un minimum global en x? qui vaut p? . Montrer que pour tout
x ∈ Rn ,
1
p? 6 f (x) − k∇f (x)k2 .
2M
Solution de l’exercice 3.3.
1. Comme f est deux fois différentiable la formule de Taylor-Maclaurin assure qu’il existe
z ∈]x, y[ tel que
1
f (y) = f (x) + h∇f (x), y − xi + h∇2 f (z)(y − x), y − xi.
2
Or par hypothèse
h∇2 f (z)(y − x), y − xi > M ky − xk2 ,
d’où la majoration annoncée.
2. On a
M
f (y) 6 f (x) + h∇f (x), y − xi +ky − xk2 .
2
M
Pour x fixé, on considère la fonction g(y) = f (x) + h∇f (x), y − xi + 2
ky − xk2 . On
remarque que g est une fonction quadratique. Plus précisément,
M M
g(y) = kyk2 − hM x − ∇f (x), yi + f (x) − h∇f (x), xi + kxk2 .
2 2
La matrice A de cette application quadratique est M In qui est définie positive. Donc g est
strictement convexe et atteint son minimum au point y ? solution de ∇g(y) = 0. Or
1
∇g(y) = 0 ⇔ M y − (M x − ∇f (x)) = 0 ⇔ y = x − ∇f (x).
M
La valeur minimale de g est donc

1 1 M 1 1
g(y ) = g x − ∇f (x) = f (x)− k∇f (x)k2 + k ∇f (x)k2 = f (x)−
?
k∇f (x)k2 .
M M 2 M 2M
1
3. Pour y = y ? = x − M
∇f (x) on a

1
f (y ? ) 6 f (x) − k∇f (x)k2 .
2M
Or comme p? = minn f (y), on en déduit que
y∈R

1
p? 6 f (y ? ) 6 f (x) − k∇f (x)k2 .
2M

25
Remarque. La formule des accroissements finis (pour les fonctions de Rn → Rn , voir [C IARLET])
permet de montrer que si pour tous x, h ∈ Rn , h∇2 f (x)h, hi 6 M khk2 , alors le gradient de f
est M -Lipschitz, c’est-à-dire que

∀x, y ∈ Rn , k∇f (y) − ∇f (x)k 6 M kx − yk.

Remarque. Dans les preuves des théorèmes de convergence on supposera qu’il existe des
constantes 0 < m 6 M telles que

∀x ∈ S, ∀h ∈ Rn , mkhk2 6 h∇2 f (x)h, hi 6 M khk2 .

En général, m et M ne sont pas connues, donc les bornes de la proposition précédente ne sont
pas explicites en pratique. Cependant, elles sont très importantes. En effet, les inégalités
1 1 2
f (x) − k∇f (x)k2 6 p? 6 f (x) − k∇f (x)k2 et kx − x? k 6 k∇f (x)k
2m 2M m
montrent que si la norme du gradient k∇f (x)k est faible alors x est proche de la solution x? .

3.2 Généralités sur les algorithmes de descente

3.2.1 Forme générale d’un algorithme de descente
Un algorithme de descente prend la forme générale décrite par l’Algorithme 1.
Algorithme 1 : Algorithme de descente général
Données : Un point initial x(0) ∈ Rn , un seuil de tolérance ε > 0
Résultat : Un point x ∈ Rn proche de x?
Initialiser x :
x ← x(0) ;
k ← 0;
tant que k∇f (x)k > ε faire
1. Déterminer une direction de descente d(k) ∈ Rn .
2. Déterminer un pas de descente t(k) > 0 tel que f (x(k) + t(k) d(k) ) < f (x(k) ).
3. Mettre à jour x :
x ← x(k+1) = x(k) + t(k) d(k) ;
k ← k + 1;
fin
Comme f est convexe,

f (x(k) + t(k) d(k) ) > f (x(k) ) + t(k) h∇f (x(k) ), d(k) i,

donc, comme t(k) > 0, pour avoir f (x(k) + t(k) d(k) ) < f (x(k) ) on doit nécessairement avoir
h∇f (x(k) ), d(k) i < 0. On dira que d ∈ Rn est une direction de descente au point x si

h∇f (x), di < 0.

L’ensemble des directions de descentes au point x est ainsi un demi-espace ouvert.

26
Convergence : Si on fait abstraction du critère d’arrêt, un algorithme de descente produit une
suite de points (x(k) )k∈N définie par la relation de récurrence

x(k+1) = x(k) + t(k) d(k)

et telle que f (x(k+1) ) < f (x(k) ) (sauf si x(k) = x? à partir d’un certain rang). L’étude de la
convergence d’un tel algorithme de descente consiste donc à savoir si la suite (x(k) )k∈N converge
vers x? . On rappelle que si f est fortement convexe on a kx − x? k 6 m2 k∇f (x)k, donc le critère
2ε
d’arrêt k∇f (x)k 6 ε implique kx − x? k 6 .
m
On verra que l’on s’intéresse également à la convergence de la suite (f (x(k) ) − p? )k∈N . On
parle alors de convergence pour la fonction objectif.

Exercice 3.4. Soit f : Rn → R une fonction fortement convexe telle que

∀x, h ∈ Rn , mkhk2 6 h∇2 f (x)h, hi 6 M khk2

avec 0 < m 6 M .
1. Montrer que pour tout x ∈ Rn ,
2 2
(f (x) − p? ) 6 kx − x? k2 6 (f (x) − p? ).
m M

2. En déduire que (f (x(k) ))k∈N converge vers p? si et seulement si (x(k) )k∈N converge vers
x? .

Solution de l’exercice 3.4.

1. Par forte convexité on a
m
∀x, y ∈ Rn , f (y) 6 f (x) + h∇f (x), y − xi + ky − xk2 .
2
En prenant y = x et x = x? on en déduit que
m
f (x) 6 p? + kx − x? k2 ,
2
d’où l’inégalité
2
(f (x) − p? ) 6 kx − x? k2 .
m
De même, en utilisant la majoration
M
∀x, y ∈ Rn , f (y) > f (x) + h∇f (x), y − xi + ky − xk2 .
2
2
on obtient que M
(f (x) − p? ) 6 kx − x? k2 . Finalement on a l’encadrement,

2 2
(f (x) − p? ) 6 kx − x? k2 6 (f (x) − p? ).
m M

2. Par continuité de f si (x(k) )k∈N converge vers x? alors (f (x(k) ))k∈N vers p? = f (x? ).
L’inégalité kx − x? k2 6 M2 (f (x) − p? ) que la réciproque est vraie.

27
Vitesse de convergence : Une fois qu’un algorithme est prouvé être convergent (i.e. (x(k) )k∈N
converge vers x? ), on s’intéresse à sa vitesse de convergence. On dit que la méthode est d’ordre
r > 1, s’il existe une constante C > 0 telle que, pour k suffisamment grand

kx(k+1) − x? k
6 C.
kx(k) − x? kr

— Si r = 1, il faut C ∈]0, 1[ pour avoir convergence et on a alors alors convergence

linéaire.
— Si r = 2, on a une convergence quadratique.
kx(k+1) − x? k
— Si lim = 0 alors on dit que l’on a convergence superlinéaire (ce qui est
kx(k) − x? kr
le cas pour toutes les méthodes d’ordre r > 1).
La quantité − log10 kx(k) −x? k mesure le nombre de décimales exactes dans l’approximation
de x? par x(k) . En cas de convergence linéaire on a

− log10 kx(k+1) − x? k > − log10 kx(k) − x? k − log10 C

donc on gagne au moins − log10 C décimales à chaque itérations. Si on a une convergence

d’ordre r > 1, on a

− log10 kx(k+1) − x? k > −r log10 kx(k) − x? k − log10 C

donc x(k+1) a r fois plus de décimales exactes que x(k) . En particulier si on a convergence
quadratique, alors la précision double à chaque itération.
On parle également alors de convergence linéaire, quadratique, etc. pour la fonction objectif,
c’est-à-dire la vitesse de convergence vers 0 de la suite (f (x(k) ) − p? )k∈N .

3.2.2 Algorithmes de recherche de pas de descente

Dans l’Algorithme 1, l’étape

“Déterminer un pas de descente t(k) > 0 tel que f (x(k) + t(k) d(k) ) < f (x(k) )”

est restée volontairement floue. Il existe de nombreuses méthodes de recherche de pas avec
différents critères (on parle de line search et des conditions de Wolfe). Comme dans le chapitre
9 de [B OYD & VANDENBERGHE], nous allons nous limiter à deux méthodes, la méthode de
pas de descente optimal (dite aussi exacte) et la méthode de pas de descente par rebroussement.
Dans les deux cas, les données du problème sont une fonction f fortement convexe, un point
actuel x = x(k) 6= x? , une direction de descente d = d(k) pour le point x, et on cherche un pas
de descente t = t(k) > 0 tel que f (x + td) soit “suffisamment plus petit que” f (x).

Pas de descente optimal : En théorie comme en pratique, il est utile de considérer la méthode
qui donne le pas de descente pour lequel f (x + td) est minimal, à savoir

t? = argmin f (x + td).
t>0

Exercice 3.5.

28
1. Justifier que pour f une fonction fortement convexe, x ∈ Rn et d ∈ Rn une direction
de descente pour f en x, le pas de descente optimal est bien défini, c’est-à-dire que t 7→
f (x + td) admet un unique minimum global t? sur ]0, +∞[.
2. Montrer que t = t? si et seulement si h∇f (x + td), di = 0.
3. On considère le cas particulier d’une fonctionnelle quadratique
1
f (x) = hAx, xi − hb, xi + c,
2
où A ∈ Mn (R) est une matrice carrée symétrique définie positive, b ∈ Rn et c ∈ R. En
considérant un point x ∈ Rn , x 6= x? , et une direction de descente d pour x, montrer que
le pas de descente optimal est donné par

hAx − b, di
t? = − .
hAd, di

Solution de l’exercice 3.5.

1. La fonction ϕ : R → R définie par ϕ(t) = f (x + td) est strictement convexe et coercive
en tant que restriction sur une droite d’une fonction f strictement convexe et coercive.
Donc ϕ admet un unique minimum global t? sur R. Il reste à justifier que t? est positif.
Or, par définition d’une direction de descente h∇f (x), di < 0, donc

f (x) > f (x + t? d) > f (x) + t? h∇f (x), di ⇒ t? > 0.

2. Comme ϕ : t 7→ f (x + td) est strictement convexe on a

t = t? ⇔ ϕ0 (t) = 0 ⇔ h∇f (x + td), di = 0.

3. On a montré à l’Exercice 2.18 que ∇f (x) = Ax − b. Ainsi,

hAx − b, di
h∇f (x + td), di = 0 ⇔ thAd, di + hAx − b, di = 0 ⇔ t = −
hAd, di

On peut également résoudre le problème de minimisation directement : On a montré à

l’Exercice 2.18 que
1
f (x + h) = f (x) + hAx − b, hi + hAh, hi.
2
Donc, pour x, d ∈ Rn et t ∈ R,
1
f (x + td) = f (x) + thAx − b, di + t2 hAd, di.
2
Ainsi ϕ(t) = f (x + td) est un trinôme du second degré dont le coefficient dominant
1
2
hAd, di est strictement positif. ϕ admet donc un minimum au point t? tel que ϕ0 (t) = 0,
soit
hAx − b, di
hAx − b, di + t? hAd, di = 0 ⇒ t? = − .
hAd, di

29
Calcul du pas de descente par méthode de rebroussement : On détaille maintenant la mé-
thode de rebroussement (backtracking an anglais) qui permet de calculer un pas de descente
lorsque l’on ne sait pas minimiser la fonction f sur la demi-droite affine {x + td, t > 0}. Cette
méthode est décrite par l’Algorithme 2.
Algorithme 2 : Algorithme de calcul du pas de descente par méthode de rebroussement
Données : Un point x ∈ Rn , une direction de descente associée d ∈ Rn , deux réels
α ∈]0, 21 [ et β ∈]0, 1[
Résultat : Un pas de descente t > 0
Initialiser t :
t ← 1;
tant que f (x + td) > f (x) + αth∇f (x), di faire
Réduire t d’un facteur β :
t ← βt ;
fin
Comme f est convexe, on sait que

f (x + td) > f (x) + th∇f (x), di.

L’Algorithme 2 cherche donc à trouver un point t pour lequel cette borne inférieure réduite par
un facteur α soit une borne supérieure. En effet, l’algorithme s’arrête dès lors que

f (x + td) 6 f (x) + αth∇f (x), di.

Comme d’après la définition du gradient de f en x, pour t proche de 0, f (x + td) est proche de

f (x) + th∇f (x), di < f (x) + αth∇f (x), di, on est assuré que l’algorithme converge.
En pratique on choisira α ∈ [0.01, 0.3] et β ∈ [0.1, 0.8].

3.3 Algorithmes de descente de gradient

On s’intéresse maintenant à l’étude d’un algorithme de descente particulier appelé algo-
rithme de descente de gradient. Cet algorithme utilise comme direction de descente d = d(k) au
point x = x(k) le vecteur opposé du gradient, soit

d(k) = −∇f (x(k) ).

30
Algorithme 3 : Algorithme de descente de gradient
Données : Un point initial x(0) ∈ Rn , un seuil de tolérance ε > 0
Résultat : Un point x ∈ Rn proche de x?
Initialiser x :
x ← x(0) ;
k ← 0;
tant que k∇f (x)k > ε faire
1. Calculer d(k) = −∇f (x) (d(k) = −∇f (x(k) )).
2. Déterminer un pas de descente t(k) > 0 par la méthode exacte
(ou par la méthode de rebroussement).
3. Mettre à jour x :
x ← x(k+1) = x(k) + t(k) d(k) ;
k ← k + 1;
fin
Attention, en pratique, on teste plutôt le critère d’arrêt après l’étape 1. afin de ne pas calculer
deux fois ∇f (x(k) ). La convergence de l’algorithme est assurée par le théorème suivant.

Théorème 3.6 (Convergence de l’algorithme de descente de gradient). Soient f : Rn → R une

fonction fortement convexe telle que

∀x, h ∈ Rn , mkhk2 6 h∇2 f (x)h, hi 6 M khk2

avec 0 < m 6 M et x(0) un point quelconque de Rn . Alors l’algorithme de descente de gradient

converge et on a convergence linéaire de la suite (f (x(k) ) − p? )k∈N :

∀k ∈ N, f (x(k) ) − p? 6 ck (f (x(0) ) − p? ),

où c ∈ [0, 1[ dépend de la méthode de recherche de pas de descente et est donnée par

m
— c=1− pour la méthode exacte/optimale,
N
m
— c = 1 − min 2mα, 2βα pour la méthode de rebroussement utilisant les constantes
M
α ∈]0, 12 [ et β ∈]0, 1[.

Preuve. On rappelle que sous les hypothèses du théorème on a démontré à l’Exercice 3.4 l’en-
cadrement
2 2
(f (x(k) ) − p? ) 6 kx(k) − x? k2 6 (f (x(k) ) − p? ).
m M
qui montre que la convergence de (f (x(k) ))k∈N vers p? entraîne la convergence de (x(k) )k∈N vers
x? . On donne maintenant la preuve de la convergence linéaire de (f (x(k) ) − p? )k∈N dans le cas
de la méthode optimale pour le calcul du pas de descente. La preuve pour le cas de la méthode
de rebroussement fait l’objet de l’Exercice 3.7.
On suppose que l’algorithme de gradient est à l’itération k et que x(k) 6= x? (sinon l’algo-
rithme a convergé en un nombre fini l 6 k d’itérations et la suite (x(k) ) est constante à x? à
partir du rang l). Le point x(k+1) est de la forme x(k+1) = x(k) + t(k) ∇f (x(k) ) avec

t(k) = argmin f (x(k) − t∇f (x(k) )).

t>0

31
On a pour tous x, y ∈ Rn ,
M
f (y) 6 f (x) + h∇f (x), y − xi + ky − xk2 .
2
En prenant x = x(k) et y = x(k) − t∇f (x(k) ) pour tout t > 0 on a
M
f (x(k) − t∇f (x(k) )) 6 f (x(k) ) − tk∇f (x(k) )k2 + t2 k∇f (x(k) )k2 .
2
Par définition, le membre de gauche est minimal en t = t(k) et vaut alors f (x(k) − t(k) ∇f (x(k) )) =
f (x(k+1) ). Ainsi pour tout t > 0, on a

(k+1) (k) M 2
f (x ) 6 f (x ) + t − t k∇f (x(k) )k2 .
2
1
Le membre de droite est minimal en t = M
, et pour cette valeur de t on obtient la majoration
1
f (x(k+1) ) 6 f (x(k) ) − k∇f (x(k) )k2 .
2M
On soustrait ensuite p? à cette inégalité
1
f (x(k+1) ) − p? 6 f (x(k) ) − p? − k∇f (x(k) )k2 .
2M
Enfin, d’après la Proposition 3.2, pour tout x ∈ Rn ,
1
p? > f (x) − k∇f (x)k2
2m
et donc pour x = x(k) ,
k∇f (x(k) )k2 > 2m(f (x(k) ) − p? ).
Ainsi, m
f (x(k+1) ) − p? 6 1 − f (x(k) ) − p? .

M
m
Par récurrence, on a donc bien f (x ) − p 6 c (f (x(0) ) − p? ) avec c = 1 −
(k) ? k
M
∈ [0, 1[.
Exercice 3.7 (Convergence de l’algorithme de descente de gradient pour la méthode de rebrous-
sement). On reprend les notations de la preuve du Théorème 3.6.
1. Montrer que pour tout t ∈ [0, M1 ] on a M 2
2
t − t 6 − 2t (on pourra par exemple utiliser la
convexité de h(t) = M2 t2 − t).
2. En déduire que pour tout t ∈ [0, M1 ],

f (x(k) − t∇f (x(k) )) 6 f (x(k) ) − αtk∇f (x(k) )k2 .

3. En déduire que la méthode de rebroussement s’arrête soit en t(k) = 1 soit pour une valeur
β
t(k) > M .
4. En déduire que

(k+1) (k) αβ
f (x ) 6 f (x ) − min α, k∇f (x(k) )k2
M
et conclure la preuve comme pour le cas du pas optimal.

32
Solution de l’exercice 3.7.
M 2
1. La fonction h(t) = 2
t − t est convexe en tant que somme de fonctions convexes. Pour
tout t ∈ [0, M1 ],
1 −1 t
h(t) 6 (1 − t)M h(0) + tM h( ) = tM =− .
M 2M 2
2. En utilisant l’inégalité précédente, on a pour tout t ∈ [0, M1 ],

(k) (k) (k) M 2 t
f (x − t∇f (x )) 6 f (x ) + t − t k∇f (x(k) )k2 6 f (x(k) ) − k∇f (x(k) )k2 .
2 2
1
Comme α < 2
on a bien

f (x(k) − t∇f (x(k) )) 6 f (x(k) ) − αtk∇f (x(k) )k2 .

3. Si la méthode de rebroussement ne s’arrête pas en t(k) = 1, alors elle s’arrête en t(k) = β m

tel que
f (x(k) − β m ∇f (x(k) )) 6 f (x(k) ) − αtk∇f (x(k) )k2
et
f (x(k) − β m−1 ∇f (x(k) )) > f (x(k) ) − αtk∇f (x(k) )k2
β
Ainsi, vu la question précédente, on a nécessairement β m−1 > M1 , donc t(k) = β m > M
.

(k) β
4. D’après la question précédente, on a la majoration t 6 min 1, . Ainsi, on a
M

f (x(k+1) ) = f (x(k) − t(k) ∇f (x(k) ))

6 f (x(k) ) − αt(k) k∇f (x(k) )k2

(k) αβ
6 f (x ) − min α, k∇f (x(k) )k2 .
M
On soustrait ensuite par p? et on utilise l’inégalité

k∇f (x(k) )k2 > 2m(f (x(k) ) − p? ).

pour avoir

(k+1) ? 2αβm
f (x −p 6 1 − min 2mα, (f (x(k) ) − p? )
M
et conclure par récurrence.
L’algorithme de descente de gradient avec la recherche de pas de descente exacte est souvent
appelé algorithme de gradient à pas optimal [C IARLET]. Attention, c’est le pas qui est optimal,
et non l’algorithme ! On étudiera des algorithmes plus “optimaux”, c’est-à-dire qui convergent
plus rapidement. En terme de fonction objectif, la convergence de cet algorithme est donc li-
m
néaire avec la constante c = 1 − M . On rappelle que m et M sont respectivement des bornes
inférieures et supérieures sur les valeurs propres des matrices hessiennes ∇2 f (x), x ∈ S. En
particulier se sont des bornes sur les valeurs propres de la matrice hessienne au point optimal x? .
Cela suggère que la convergence de l’algorithme de descente de gradient est d’autant plus rapide

33
si la matrice hessienne ∇2 f (x? ) est bien conditionnée (on rappelle que pour une matrice réelle
symétrique A le conditionnement cond(A) correspond au rapport des plus grande et plus petite
valeur propre, et donc cond(A) = λλmax (A)
min (A)
6M
m
). On verra qu’en pratique cette observation est
vérifiée. Plus rigoureusement, pour une fonctionnelle quadratique f (x) = 21 hAx, xi − hb, xi + c
on a ∇2 f (x) = A pour tout x, et donc on peut prendre m = λmin (A), M = λmax (A), et alors
m
on a cond(A) = M . En particulier, si cond(A) = 1, c’est-à-dire si A = λI (avec λ > 0) est une
matrice scalaire, alors l’algorithme du gradient à pas optimal converge en une itération !

Exercice 3.8. Vérifier que si f est une fonctionnelle quadratique avec A = λI, λ > 0, alors
l’algorithme du gradient à pas optimal converge en une itération.

Solution de l’exercice 3.8. On sait que x? est l’unique solution du système Ax = b, soit ici
x? = λ1 b. D’après l’Exercice 3.5, le pas de descente t(0) est donné par

hAx(0) − b, di
t(0) = − .
hAd, di

Ici d = −∇f (x(0) ) = −Ax(0) + b = −λx(0) + b d’où

kλx(0) − bk2 1
t(0) = − = − ,
λk − λx(0) + bk2 λ
d’où
1 1
x(1) = x(0) − (λx(0) − b) = b = x? .
λ λ

3.4 Méthode de Newton

La méthode de Newton est un algorithme de descente pour lequel le pas de descente d(k) au
point x(k) est donné par
d(k) = −∇2 f (x(k) )−1 ∇f (x(k) ).
Le calcul de ce pas de descente nécessite donc la résolution d’un système linéaire de taille n×n.

Remarque (Résolution de système linéaire). On rappelle que l’évaluation numérique d’un vec-
teur x de la forme
x = A−1 b
ne doit en général jamais s’effectuer en calculant la matrice inverse A−1 puis en multipliant par
le vecteur b mais en résolvant le système linéaire

Ax = b.

En Octave cela s’écrit x = A\b (et surtout pas x = A^(-1)*b !).

Avant de poursuivre l’étude de l’algorithme de Newton, justifions le choix de ce pas de

descente. Pour une fonction f deux fois différentiable en x, la formule de Taylor-Young assure
que
1
f (x + h) = f (x) + h∇f (x), hi + h∇2 f (x)h, hi + khk2 ε(h)
2

34
avec lim ε(h) = 0. La fonction
h→0

1
g(x + h) = f (x) + h∇f (x), hi + h∇2 f (x)h, hi
2
est donc l’approximation d’ordre deux de f au voisinage de x. Cette fonction g est une fonction-
nelle quadratique (en la variable h) avec A = ∇2 f (x) et b = −∇f (x). Elle est donc minimale
pour le vecteur
h? = −∇2 f (x)−1 ∇f (x)
qui est le pas de Newton. Autrement dit le pas de Newton d(k) = −∇2 f (x(k) )−1 ∇f (x(k) ) est
choisi de sorte à ce que x(k) + d(k) minimise l’approximation à l’ordre deux au point x(k) de la
fonction f .
Proposition 3.9. La pas de Newton d = −∇2 f (x(k) )−1 ∇f (x(k) ) est invariant par changement
de variable affine.
La preuve de cette proposition fait l’objet de l’exercice suivant.
Exercice 3.10. Soit f : Rn → R une fonction deux fois différentiable. Soient A ∈ Mn (R) une
matrice carrée inversible et b ∈ Rn . On pose g(x) = f (Ax + b).
1. Exprimer le gradient et la matrice hessienne de g en fonction du gradient et de la matrice
hessienne de f .
2. Soit y ∈ Rn . Soit d le pas de descente de Newton de f au point x = Ay + b et d0 le pas
de descente de Newton de g au point y. Montrer que d = Ad0 et x + d = A(y + d0 ) + b.
Solution de l’exercice 3.10.
1. On a
∇g(x) = AT ∇f (Ax + b) et ∇2 g(x) = AT ∇2 f (Ax + b)A
2. On a
d0 = −∇g 2 (y)−1 ∇g(y)
−1 T
= − AT ∇2 f (Ay + b)A A ∇f (Ay + b)
= −A−1 ∇2 f (x)−1 (AT )−1 AT ∇f (x)
= −A−1 ∇2 f (x)−1 ∇f (x)
= A−1 d.
D’où
A(y + d0 ) + b = Ay + b + AA−1 d = x + d.
Cette proposition est fondamentale. Alors que l’algorithme de descente de gradient est très
influencé par le conditionnement de la matrice hessienne, l’algorithme de descente de Newton
est invariant par changement de variable affine.

Critère d’arrêt invariant par changement de variable affine : Comme pour toute les mé-
thodes de descente, le critère d’arrêt k∇f (x)k2 6 ε2 est valide pour la méthode de Newton,
mais il n’est pas invariant par changement de variable affine. Pour cela on préfère utiliser le
critère Λ(x) 6 ε2 où

Λ(x) = h∇2 f (x)−1 ∇f (x), ∇f (x)i = −hd, ∇f (x)i

35
est la norme au carré de ∇f (x) pour la norme associée à la matrice symétrique définie positive
∇2 f (x)−1 . On remarque que le produit scalaire hd, ∇f (x)i = −Λ(x) est calculé par ailleurs
dans la méthode de rebroussement pour le calcul du pas de descente, donc ce critère d’arrêt
n’ajoute aucun coût de calcul.
L’algorithme de Newton est donné par l’Algorithme 4.
Algorithme 4 : Algorithme de descente de Newton
Données : Un point initial x(0) ∈ Rn , un seuil de tolérance ε > 0, des paramètres
α ∈]0, 12 [ et β ∈]0, 1[ pour la méthode de rebroussement
Résultat : Un point x ∈ Rn proche de x?
Initialiser x :
x ← x(0) ;
k ← 0;
Calculer la première direction de descente :
d(0) = −∇2 f (x(0) )−1 ∇f (x(0) ) ;
Λ(0) = −hd(0) , ∇f (x(0) )i ;
tant que Λ(k) > ε2 faire
1. Déterminer un pas de descente t(k) > 0 au point x(k) selon la direction d(k)
par la méthode de rebroussement avec les paramètres α et β.
2. Mettre à jour x :
x ← x(k+1) = x(k) + t(k) d(k) ;
k ← k + 1;
3. Calculer la nouvelle direction de descente :
d(k) = −∇2 f (x(k) )−1 ∇f (x(k) ) ;
Λ(k) = −hd(k) , ∇f (x(k) )i ;
fin

Théorème 3.11 (Convergence de la méthode de Newton). Soit f : Rn → R une fonction

fortement convexe telle que

∀x, h ∈ Rn , mkhk2 6 h∇2 f (x)h, hi 6 M khk2

avec 0 < m 6 M et dont la matrice hessienne est lipschitzienne pour la constante L > 0

∀x, y ∈ Rn , k∇2 f (x) − ∇2 f (y)kMn (R) 6 Lkx − yk.

Soit x(0) un point quelconque de Rn . On pose

m2 m
η = min(1, 3(1 − 2α)) et γ = αβη 2 .
L M2
Alors on a :
— Si k∇f (x(k) )k > η, alors

f (x(k+1) ) − f (x(k) ) 6 −γ.

— Si k∇f (x(k) )k < η, alors la méthode de rebroussement retourne le pas t(k) = 1 et

2
L (k+1) L (k)
k∇f (x )k 6 k∇f (x )k .
2m2 2m2

36
En particulier, l’algorithme de Newton converge et atteint un régime de convergence quadra-
tique au bout d’un nombre fini d’itérations.

Le théorème est admis. On renvoie à [B OYD & VANDENBERGHE, pp. 488-491] pour une
preuve détaillée.

Exercice 3.12. Vérifier que si f : Rn → R est une fonctionnelle quadratique, alors l’algorithme
de Newton converge en une seule itération.

Solution de l’exercice 3.12. Vérifions que t(0) = 1 est accepté (VOIR BROUILLON A RE-
COPIER).
Ensuite,
x(1) = x(0) − A−1 (Ax(0) − b) = A−1 b.

On retiendra que cela n’a pas de sens d’utiliser l’algorithme de Newton pour minimiser une
fonctionnelle quadratique. L’algorithme de Newton est utile pour minimiser des fonctionnelles
non quadratiques, et il consiste à minimiser une fonctionnelle quadratique à chaque itération, ce
qui implique la résolution d’un système linéaire de taille n × n. Chaque itération a donc un coût
de calcul non négligeable, mais en revanche l’algorithme converge très rapidement et nécessite
un faible nombre d’itérations pour atteindre une grande précision numérique.
A l’opposé, l’objet du prochain chapitre est d’introduire un algorithme plus performant que
l’algorithme de descente de gradient pour minimiser des fonctionnelles quadratiques.

37
Chapitre 4

Méthode du gradient conjugué

Les références principales pour ce chapitre sont la section 8.5 de [C IARLET] et le chapitre
9 de [A LLAIRE & K ABER].
Le but de la méthode du gradient conjugué est de minimiser une fonctionnelle quadratique
f : Rn → R de la forme
1
f (x) = hAx, xi − hb, xi + c,
2
où A ∈ Mn (R) est une matrice carrée symétrique définie positive, b ∈ Rn et c ∈ R. On rappelle
que ce problème équivaut à résoudre le système linéaire
Ax = b.
On a étudié au chapitre précédent l’algorithme du gradient à pas optimal qui permet de mini-
miser ces fonctionnelles avec une vitesse de convergence linéaire. Pour cela, à chaque itération
l’algorithme de descente de gradient à pas optimal minimise la fonctionnelle quadratique f sur
la droite affine
{x(k) − t∇f (x(k) ), t ∈ R}.
L’idée principale de l’algorithme du gradient conjugué est d’élargir à chaque itération l’es-
pace sur lequel on minimise la fonctionnelle quadratique : à chaque itération k on va minimi-
ser la fonctionnelle sur un espace affine de dimension k + 1. Le corollaire immédiat de cette
démarche est que l’algorithme converge nécessairement en au plus n itérations. La difficulté
principale réside dans le fait de montrer que tous ces problèmes intermédiaires de minimisation
sur des espaces de dimension croissantes sont facilement résolubles.

4.1 Description de l’algorithme et preuve de sa convergence

Définissons plus précisément l’algorithme du gradient conjugué. Comme pour toutes les
méthodes de descente, on se donne un vecteur initial x(0) quelconque de Rn . La première ité-
ration correspond exactement à celle du gradient à pas optimal : On se donne la direction de
descente d(0) = −∇f (x(0) ) et on minimise f sur la droite affine
x(0) + G0 = x(0) + Vect(∇f (x(0) )).
Pour les itérations suivantes, on suppose que l’on a déjà construit les k premiers vecteurs x(1) ,
x(2) , . . . , x(k) . On suppose de plus que pour tout 0 6 i 6 k,
∇f (x(i) ) 6= 0

38
(sinon on aurait déjà trouvé la solution x? et l’algorithme serait terminé). Pour chaque i ∈
{0, 1, . . . , k} on définit l’espace
( i )
X
Gi = Vect{∇f (x(j) ) | j ∈ {0, 1, ...i}} = ηj ∇f (x(j) ) | (η0 , η1 , ..., ηi ) ∈ Ri+1 .
j=0

Les espaces Gi sont a priori de dimension inférieure à i + 1 mais on va montrer qu’ils sont
exactement de dimension i + 1, c’est-à-dire que les vecteurs ∇f (x(j) ) sont linéairement indé-
pendants.
L’idée essentielle de l’algorithme du gradient conjugué est de définir x(k+1) comme le mi-
nimum de f sur tout l’espace affine x(k) + Gk , c’est-à-dire

x(k+1) ∈ (x(k) + Gk ) et f (x(k+1) ) = min f (y) (4.1)

y∈(x(k) +Gk )

où (x(k) + Gk ) = {x(k) + x | x ∈ Gk }.

Théorème 4.2 (Convergence de l’algorithme du gradient conjugué). L’algorithme du gradient

conjugué converge en au plus n itérations.

La preuve de ce théorème est l’objet de l’exercice suivant.

Exercice 4.3.
1. Justifier que la restriction d’une fonctionnelle quadratique à un sous-espace affine est
encore une fonctionnelle quadratique. Pour cela on considérera un sous-espace affine
z + G de dimension l, 1 6 l 6 n, une base orthonormale e1 , . . . , el de G, et la restriction

g : Rl → R !
l
X
y 7→ f (z + Dy) = f z+ yj ej
j=1

où la matrice D ∈ Mn,l (R) est la matrice dont les colonnes sont les vecteurs e1 , . . . , el .
2. En déduire que le problème (4.1) admet une unique solution x(k+1) .
3. En utilisant le théorème 2.16 sur les minimums des fonctions convexes, montrer que pour
tout y ∈ Gk ,
h∇f (x(k+1) ), yi = 0,
i.e. ∇f (x(k+1) ) ∈ G⊥
k.
4. En déduire que soit x(k+1) = x? , soit le vecteur ∇f (x(k+1) ) est orthogonal à chacun des
vecteurs ∇f (x(0) ), ∇f (x(1) ), . . . ∇f (x(k) ).
5. Montrer que l’algorithme du gradient conjugué converge en au plus n itérations.

Solution de l’exercice 4.3.

1. Il s’agit de montrer que y 7→ f (Dy + z) est quadratique en développant, avec D repré-
sentant une base de l’espace affine.
On a
min f (x) = min f (z + Dy) = min g(y).
x∈z+G y∈Rl y∈Rl

39
Or
g(y) = f (z + Dy)
1
= hA(z + Dy), (z + Dy)i − hb, (z + Dy)i + c
2
1 1 1
= hADy, Dyi + hADy, zi + hAz, Dyi − hb, Dyi + f (z)
2 2 2
1 T
= hD ADy, yi − hDT (b − Az), yi + f (z).
2
On a bien une fonctionnelle quadratique pour la variable y.
2. La fonctionnelle est quadratique. Vérifions que la matrice symétrique DT AD est définie
positive. Soit y tel que hDT ADy, yi = 0. hDT ADy, yi = hADy, Dyi = 0 et A est définie
positive donc Dy = 0. Mais D correspond aux vecteurs de base, donc la matrice est de
rang l ou encore ker(D) = {0} et on a bien y = 0. Donc la fonctionnelle est quadratique
avec une matrice symétrique définie positive, le problème admet une unique solution.
3. Le théorème 2.16 assure que x(k+1) est solution du problème de minimisation sous contrainte (4.1)
si et seulement si pour tout y ∈ Gk h∇f (x(k+1) ), yi = 0.
4. Soit ∇f (x(k+1) ) = 0 et alors x(k+1) = x? , soit ∇f (x(k+1) ) 6= 0 et ∇f (x(k+1) ) est ortho-
gonal à chaque vecteur ∇f (x(0) ), ∇f (x(1) ), . . . ∇f (x(k) ) ∈ Gk .
5. Par récurrence immédiate, les vecteurs ∇f (x(i) ) sont deux à deux orthogonaux. Donc les
vecteurs (∇f (x(0) ), ∇f (x(1) ), . . . ∇f (x(k+1) )) forment une famille orthogonale de Rn . Si
à l’itération k = n on avait encore ∇f (x(n) ) 6= 0, alors on aurait une famille de n + 1
vecteurs orthogonaux de Rn .
Remarque. On peut déjà dire que cette méthode est supérieure à celle du gradient à pas optimal
car la droite {x(k) −t∇f (x(k) ), t ∈ R} est incluse strictement dans (x(k) +Gk ). La convergence
est acquise, mais il reste à montrer qu’il existe des relations simples pour implémenter l’algo-
rithme du gradient conjugué, c’est-à-dire des relations qui permettent de calculer directement
les vecteurs x(k+1) ∈ (x(k) +Gk ) à chaque étape sans avoir recours à des algorithmes complexes
de minimisation.

4.2 Implémentation de l’algorithme du gradient conjugué

Le problème du calcul des itérés x(k) est resté en suspend dans la partie précédente. Cepen-
dant c’est un point essentiel pour l’implémentation de l’algorithme. On va montrer en utilisant
le caractère quadratique de la fonctionnelle F que l’on peut trouver des expressions explicites
pour ces vecteurs.
On définit les k + 1 vecteurs des différences
i
X
(i) (i+1) (i) (i)
d =x −x = dj ∇f (x(j) ), 0 6 i 6 k.
j=0

Comme F est quadratique on a

∇f (x + y) = A(x + y) − b = ∇f (x) + Ay, ∀x, y ∈ Rn .
On a donc en particulier
∇f (x(i+1) ) = ∇f (x(i) + d(i) ) = ∇f (x(i) ) + Ad(i) , 0 6 i 6 k.

40
De l’orthogonalité des vecteurs gradients successifs ∇f (x(i) ), 0 6 i 6 k, on déduit d’une part

0 = h∇f (x(i+1) ), ∇f (x(i) )i = k∇f (x(i) )k2 + hAd(i) , ∇f (x(i) )i, 06i6k

et donc comme on a supposé ∇f (x(i) ) 6= 0, 0 6 i 6 k on obtient

d(i) 6= 0, 0 6 i 6 k, (4.4)

d’autre part pour k > 1 et 0 6 j < i 6 k :

0 = h∇f (x(i+1) ), ∇f (x(j) )i = hf (x(i) ), ∇f (x(j) )i + hAd(i) , ∇f (x(j) )i = hAd(i) , ∇f (x(j) )i.
(4.5)
De plus comme chaque vecteur d(j) est une combinaison linéaire des vecteurs ∇f (xl ), 1 6 l 6
j, (4.5) entraîne que
hAd(i) , d(j) i = 0, 0 6 j < i 6 k. (4.6)
On dit alors que les vecteurs d(i) sont conjugués par rapport à la matrice A, c’est à dire qu’il sont
orthogonaux par rapport au produit scalaire défini par la matrice A qui est symétrique définie
positive. Ce point de vue nous montre directement que des vecteurs non nuls et conjugués par
rapport à A sont linéairement indépendants (car orthogonaux par rapport à un produit scalaire).
Les vecteurs d(i) sont non nuls d’après (4.4) et conjugués par rapport à A, donc les vecteurs
d(i) sont linéairement indépendants.
X i
(i)
(i)
Les vecteurs ∇f (x ), 0 6 i 6 k, et les vecteurs d = (i)
dj ∇f (x(j) ), 0 6 i 6 k, sont
j=0
linéairement indépendants, l’égalité entre les matrices de rang (k + 1) :
 (0) (1) (k) 
d0 d0 . . . d0
(0) (k)
 0 d1 . . . d1


(0) (1) (k) (0) (1) (k)
d |d |...|d = ∇f (x )|∇f (x )|...|∇f (x )  .

 .. ... ... .. 
. 
(k)
0 . . . 0 dk
(i)
impose que les éléments diagonaux di sont non nuls pour 0 6 i 6 k.
On doit maintenant calculer les composantes des ces vecteurs d(i) . En repensant au forma-
lisme f (x(k+1) ) = f (x(k) −t(k) d(k) ), on voit que l’on peut tout d’abord s’intéresser à la direction
de d(k) et ensuite déterminer le t(k) qui minimise f (x(k) − t(k) d(k) ).
(i)
A partir de maintenant on renormalise chaque vecteur d(i) afin d’imposer que di = 1, 0 6
i 6 k, c’est-à-dire que ces nouveaux vecteurs (que l’on appelle toujours d(i) ) sont de la forme :
i−1
X
(i) (i)
d = dj ∇f (x(j) ) + ∇f (x(i) ), 0 6 i 6 k. (4.7)
j=0

On a d’après (4.6) pour 0 6 j 6 k − 1 :

0 = hd(k) , Ad(j) i = hd(k) , t(k) Ad(j) i = hd(k) , ∇f (x(j+1) ) − ∇f (x(j) )i

d’où en utilisant la relation de décomposition (4.7) et celle d’orthogonalité (4.5) on obtient

— pour 0 6 j 6 k − 2 :
(k) (k)
dj+1 k∇f (x(j+1) )k2 − dj k∇f (x(j) )k2 = 0

41
— pour j = k − 1 :
(k)
k∇f (x(k) )k2 − dk−1 k∇f (x(k−1) )k2 = 0
d’où par récurrence descendante,

(k) k∇f (x(k) )k2

∀0 6 j 6 k − 1, dj = .
k∇f (x(j) )k2
(k)
On sait ainsi calculer tous les dj pour trouver (la direction de) d(k) à l’étape k de l’algorithme.
Leur nombre étant croissant à chaque étape, le calcul de d(k) devrait prendre de plus en plus de
temps. Cependant il existe une relation de récurrence très simple entre les d(k) . En effet on a
k−1
(k) (k)
X k∇f (x(k) )k2
d = ∇f (x ) + ∇f (x(i) )
i=0
k∇f (xi )k2
k−2
!
k∇f (x(k) )k2 X k∇f (x(k−1) )k2
= ∇f (x(k) ) + ∇f (x(k−1) ) + ∇f (x(i) )
k∇f (x(k−1) )k2 i=0
k∇f (xi )k2
| {z }
d(k−1)

c’est-à-dire
k∇f (x(k) )k2 (k−1)
d(k) = ∇f (x(k) ) + d .
k∇f (x(k−1) )k2
Cette relation est doublement heureuse car non seulement elle permet de calculer d(k) sans
(k)
calculer toutes ses coordonnées di , mais en plus elle montre que pour calculer d(k) on n’a
pas besoin de garder en mémoire toutes les valeurs ∇f (x(i) ) mais seulement les deux dernières
∇f (x(k−1) ) et ∇f (x(k) ).
Pour finir d’expliciter les calculs il ne reste plus qu’à calculer t(k) défini par

f (x(k+1) ) = f (x(k) − t(k) d(k) ) = inf f (x(k) − td(k) ).

t∈R

On a déjà démontré que ceci revient à minimiser un trinôme du second degré et que la solution
est donnée par
h∇f (x(k) ), d(k) i
t(k) = .
hAd(k) , d(k) i
Nous avons démontré dans cette section plusieurs formules de récurrence qui nous per-
mettent désormais d’expliciter chaque itération de l’algorithme du gradient conjugué d’un point
de vue numérique.
On part d’un vecteur arbitraire x(0) . Si ∇f (x(0) ) = 0 alors x(0) = x? et l’algorithme s’arrête,
sinon on pose
d(0) = ∇f (x(0) )
et
h∇f (x(0) ), d(0) i
t(0) =
hAd(0) , d(0) i
puis le vecteur
x(1) = x(0) − t(0) d(0) .
Si on suppose construits de proche en proche les vecteurs x(1) , d(1) , ..., x(k−1) , d(k−1) , x(k) ,
(ce qui sous-entend que les ∇f (x(i) ) sont tous non nuls), deux cas se présentent :

42
— soit ∇f (x(k) ) = 0 et alors x(k) = x? et l’algorithme est terminé,
— soit ∇f (x(k) ) 6= 0 et alors on définit successivement

k∇f (x(k) )k2 (k−1)

d(k) = ∇f (x(k) ) + d ,
k∇f (x(k−1) )k2

h∇f (x(k) ), d(k) i

t(k) =
hAd(k) , d(k) i
et
x(k+1) = x(k) − t(k) d(k) ,
et on recommence cette étape avec ce vecteur x(k+1) .
On voit finalement que cet algorithme n’effectue que des calculs élémentaires alors que
l’on utilisait théoriquement des minimisations de fonctionnelles sur des espaces de dimension
de plus en plus grande. Toutes ces simplifications ont été obtenues en utilisant le caractère
quadratique de la fonctionnelle F . On remarque cependant que cet algorithme n’entre pas dans
la définition générique des algorithmes de descente car le calcul de la direction de descente d(k)
dépend de x(k) mais aussi de x(k−1) et d(k−1) .

Exercice 4.8.
1. Donner un pseudo-code complet pour l’algorithme du gradient conjugué (on utilisera le
critère d’arrêt usuel k∇f (x)k 6 ε même si l’algorithme converge en n itérations).
2. Donner le code d’une fonction Octave
function x = gradient_conjugue(A,b,x0,eps)
qui applique la méthode du gradient conjugué pour résoudre le système Ax = b en partant
du point x(0) et avec le test d’arrêt de paramètre ε.

Solution de l’exercice 4.8.

43
1. On a l’algorithme suivant :
Algorithme 5 : Algorithme du gradient conjugué
Données : Un point initial x(0) ∈ Rn , un seuil de tolérance ε > 0
Résultat : Un point x ∈ Rn proche de x?
Initialiser x :
x ← x(0) ;
k ← 0;
Première itération :
(a) Calculer d(0) = ∇f (x) (d(0) = ∇f (x(k) ))
h∇f (x(0) ),d(0) i kd(0) k2
(b) Calculer le pas de descente optimal : t(0) = hAd(0) ,d(0) i
= hAd(0) ,d(0) i
(c) Mettre à jour x :
x(1) = x(0) − t(0) d(0) ; k ← k + 1;
tant que k∇f (x)k2 > ε2 faire
k∇f (x(k) )k2
(a) Calculer d(k) = ∇f (x(k) ) + k∇f (x(k−1) )k2
d(k−1) .
(b) Déterminer un pas de descente optimal t(k) > 0 dans la direction d(k) :
(x(k) ),d(k) i
t(k) = h∇f
hAd(k) ,d(k) i
(c) Mettre à jour x :
x ← x(k+1) = x(k) − t(k) d(k) ; (attention c’est bien un signe −)
k ← k + 1;
fin

function x = gradient_conjugue(A,b,x0,eps)

x = x0;
k = 0;
gfx = A*x-b;
sqngfx = gfx’*gfx;
d = gfx;
t = sqngfx/((A*d)’*d);
x = x - t*d;
sqngfxold = sqngfx;
gfx = A*x - b;
sqngfx = gfx’*gfx;
k = k+1;

while(sqngfx>eps^2 && k < 1000)

d = gfx + sqngfx/sqngfxold*d;
t = gfx’*d/((A*d)’*d);
x = x - t*d;
sqngfxold = sqngfx;
gfx = A*x - b;
sqngfx = gfx’*gfx;

44
k = k+1;
disp([k,sqngfx]);
end

end

% test :
n = 1000;
A = toeplitz([2, -1, zeros(1, n-2)])*(n+1)^2;
b = rand(n,1);
xstar = A\b;
x0 = zeros(size(b));
eps = 10^(-4);
x = gradient_conjugue(A,b,x0,eps);
norm(x-xstar,’inf’)
% stop toujours a n/2 en partant de b=ones(n,1), surement une symetrie

4.3 Algorithme du gradient conjugué comme méthode itéra-

tive
On a vu que l’algorithme du gradient conjugué convergeait en un nombre fini d’itérations
inférieur ou égal à la dimension n de l’espace Rn . On doit cependant faire deux observations.
La première est que du fait des erreurs numériques, il se peut que l’algorithme ne converge
pas exactement vers la solution au bout de n itérations.
La deuxième est qu’en pratique, lorsque l’on résout de grands systèmes linéaires, la suite
de vecteurs x(k) est très rapidement proche de x? et on peut stopper l’algorithme bien avant que
k = n.
Finalement, l’algorithme du gradient conjugué peut être vu comme une méthode directe
de résolution de système linéaire (au même titre que l’utilisation de la factorisation LU ou
la méthode de Gauss-Siedel, voir [A LLAIRE & K ABER]), mais aussi comme un algorithme
itératif de type descente de gradient. La proposition suivante quantifie la vitesse de convergence
de l’algorithme du gradient conjugué.

Proposition 4.9 (Vitesse de convergence du gradient conjugué). Soit A une matrice symétrique
définie positive. Soit x? la solution du système linéaire Ax = b. Soit (x(k) )k la suite de solutions
approchées générée par l’algorithme du gradient conjugué. On a
p !k
p cond(A) − 1
kx(k) − x? k 6 2 cond(A) p kx(0) − x? k.
cond(A) + 1

La preuve de cette proposition est admise. On renvoie à la section 9.5.2 de [A LLAIRE & K ABER].

45
Bibliographie

[A LLAIRE & K ABER] Grégoire A LLAIRE et Sidi Mahmoud K ABER, Algèbre linéaire numé-
rique, Ellipses, 2002
[C IARLET] Philippe G. C IARLET, Introduction à l’analyse numérique matricielle et à l’opti-
misation, cinquième édition, Dunod, 1998
[B OYD & VANDENBERGHE] Stephen B OYD and Lieven VANDENBERGHE Convex Optimiza-
tion, Cambridge University Press, 2004

Vous aimerez peut-être aussi

Cours Galerne
Pas encore d'évaluation
Cours Galerne
38 pages
Introduction à l'optimisation mathématique
Pas encore d'évaluation
Introduction à l'optimisation mathématique
45 pages
Cours Optim NL
Pas encore d'évaluation
Cours Optim NL
69 pages
Optimisation et Calcul Différentiel ECP
Pas encore d'évaluation
Optimisation et Calcul Différentiel ECP
104 pages
Optimisation et Calcul Différentiel ECP
Pas encore d'évaluation
Optimisation et Calcul Différentiel ECP
104 pages
Cours Optimisation
100% (1)
Cours Optimisation
43 pages
Chapitres 1-2-3 Cours Optimisation Sans Contraintes
100% (1)
Chapitres 1-2-3 Cours Optimisation Sans Contraintes
43 pages
Introduction à la recherche opérationnelle
Pas encore d'évaluation
Introduction à la recherche opérationnelle
70 pages
Introduction à la recherche opérationnelle
Pas encore d'évaluation
Introduction à la recherche opérationnelle
70 pages
Optimisation Numérique L3 Paris-Dauphine
Pas encore d'évaluation
Optimisation Numérique L3 Paris-Dauphine
78 pages
Optimisation Sans Contraintes
Pas encore d'évaluation
Optimisation Sans Contraintes
60 pages
Poly GMM4
Pas encore d'évaluation
Poly GMM4
106 pages
Analyse Numérique pour Étudiants L3
Pas encore d'évaluation
Analyse Numérique pour Étudiants L3
301 pages
Mathématiques pour l'économie : optimisation
Pas encore d'évaluation
Mathématiques pour l'économie : optimisation
80 pages
Cours d'Analyse Numérique L3
Pas encore d'évaluation
Cours d'Analyse Numérique L3
248 pages
Cours d'Analyse Numérique - Aix Marseille
Pas encore d'évaluation
Cours d'Analyse Numérique - Aix Marseille
271 pages
Analyse 3
Pas encore d'évaluation
Analyse 3
89 pages
Cours d'Analyse 3 : Fonctions Multivariables
Pas encore d'évaluation
Cours d'Analyse 3 : Fonctions Multivariables
89 pages
Cours sur l'Optimisation sans Contrainte
Pas encore d'évaluation
Cours sur l'Optimisation sans Contrainte
55 pages
Optimisation mathématique : guide pratique
Pas encore d'évaluation
Optimisation mathématique : guide pratique
49 pages
Optimisation Mathématique: Avec Applications en Imagerie
Pas encore d'évaluation
Optimisation Mathématique: Avec Applications en Imagerie
399 pages
Espaces vectoriels normés et dérivabilité
Pas encore d'évaluation
Espaces vectoriels normés et dérivabilité
128 pages
7analyse 3 Cours 02
Pas encore d'évaluation
7analyse 3 Cours 02
89 pages
Analyse Numérique : Méthodes et Exercices
67% (3)
Analyse Numérique : Méthodes et Exercices
250 pages
Cours de Calcul Différentiel et Équations
Pas encore d'évaluation
Cours de Calcul Différentiel et Équations
45 pages
Acfrogagqy Ojpbe5duwxg Ohgin Xptpk6bb 3vl4ekj7hy W Ar15pguv6qx9ih Eywtzldbhgtowf9fxomuxejuivfcezt0rrdj CBXN A1ubxgxab8ud Jvqdaqwqdkmkjxu3i5um7nyoqw
Pas encore d'évaluation
Acfrogagqy Ojpbe5duwxg Ohgin Xptpk6bb 3vl4ekj7hy W Ar15pguv6qx9ih Eywtzldbhgtowf9fxomuxejuivfcezt0rrdj CBXN A1ubxgxab8ud Jvqdaqwqdkmkjxu3i5um7nyoqw
54 pages
Cours d'Analyse Numérique L3
Pas encore d'évaluation
Cours d'Analyse Numérique L3
243 pages
Anamat Brele Mpouebe ENSP Université Marien Ngouabi
Pas encore d'évaluation
Anamat Brele Mpouebe ENSP Université Marien Ngouabi
213 pages
Analyse des Fonctions Multivariables
100% (1)
Analyse des Fonctions Multivariables
113 pages
coursOptNum23 1
Pas encore d'évaluation
coursOptNum23 1
44 pages
Analyse Matricielle en Mathématiques
100% (1)
Analyse Matricielle en Mathématiques
291 pages
Optimisation Non-Linéaire L3
Pas encore d'évaluation
Optimisation Non-Linéaire L3
53 pages
Cours d'Optimisation à l'ISFA
Pas encore d'évaluation
Cours d'Optimisation à l'ISFA
65 pages
Cours d'Optimisation à l'ISFA
Pas encore d'évaluation
Cours d'Optimisation à l'ISFA
65 pages
Analyse Numérisue Et Opt
100% (2)
Analyse Numérisue Et Opt
150 pages
Cours d'Analyse Numérique - Licence Maths
Pas encore d'évaluation
Cours d'Analyse Numérique - Licence Maths
249 pages
MACS2 AnaNumAv
Pas encore d'évaluation
MACS2 AnaNumAv
60 pages
Espaces Vectoriels Normés et Calcul
Pas encore d'évaluation
Espaces Vectoriels Normés et Calcul
141 pages
Opt PDF
100% (1)
Opt PDF
395 pages
Poly Cours
Pas encore d'évaluation
Poly Cours
142 pages
Mathématiques appliquées à la Mécanique
Pas encore d'évaluation
Mathématiques appliquées à la Mécanique
105 pages
Cours de Calcul Différentiel
Pas encore d'évaluation
Cours de Calcul Différentiel
33 pages
Cours sur l'Optimisation Mathématique
Pas encore d'évaluation
Cours sur l'Optimisation Mathématique
65 pages
Polycopie Optimisation Licence SSD Et MID
Pas encore d'évaluation
Polycopie Optimisation Licence SSD Et MID
44 pages
ANUM Poly Mines Cours NEW
Pas encore d'évaluation
ANUM Poly Mines Cours NEW
172 pages
Poly 2022
Pas encore d'évaluation
Poly 2022
69 pages
Cours de Calcul Différentiel et Applications
100% (1)
Cours de Calcul Différentiel et Applications
46 pages
Latex Livre Cours
Pas encore d'évaluation
Latex Livre Cours
151 pages
Modélisation et Analyse Numérique Matricielle
Pas encore d'évaluation
Modélisation et Analyse Numérique Matricielle
76 pages
Cours Optimisation
100% (2)
Cours Optimisation
39 pages
Analyse Numérique et Optimisation
Pas encore d'évaluation
Analyse Numérique et Optimisation
150 pages
Analyse BAC1 Sc. Eco. UCB
Pas encore d'évaluation
Analyse BAC1 Sc. Eco. UCB
122 pages
Poly Optimisation
Pas encore d'évaluation
Poly Optimisation
72 pages
Introduction à l'optimisation
Pas encore d'évaluation
Introduction à l'optimisation
39 pages
Calcul Différentiel et Séries de Fourier
Pas encore d'évaluation
Calcul Différentiel et Séries de Fourier
82 pages
Analyse des Circuits et Composants Électroniques
Pas encore d'évaluation
Analyse des Circuits et Composants Électroniques
12 pages
Phénomène Périodique, Période Et Fréquence
100% (1)
Phénomène Périodique, Période Et Fréquence
4 pages
(Mathématiques Et Applications) Mourad Choulli (Auth.) - Une Introduction Aux Problèmes Inverses Elliptiques Et Paraboliques-Springer Berlin Heidelberg (2009)
Pas encore d'évaluation
(Mathématiques Et Applications) Mourad Choulli (Auth.) - Une Introduction Aux Problèmes Inverses Elliptiques Et Paraboliques-Springer Berlin Heidelberg (2009)
266 pages
Guide Enseignant Vacataire ENSTA
Pas encore d'évaluation
Guide Enseignant Vacataire ENSTA
84 pages
P98-131 BB Aéronautique
100% (3)
P98-131 BB Aéronautique
16 pages
Encg
Pas encore d'évaluation
Encg
2 pages
Représentation Numérique et Conversion
50% (2)
Représentation Numérique et Conversion
3 pages
3-Data Analyst Note
Pas encore d'évaluation
3-Data Analyst Note
61 pages
Tse Physique 1 5
Pas encore d'évaluation
Tse Physique 1 5
79 pages
TD2 Simplifictation
Pas encore d'évaluation
TD2 Simplifictation
2 pages
Pétrographie et minéraux essentiels
Pas encore d'évaluation
Pétrographie et minéraux essentiels
42 pages
Cours de Maths 4è
Pas encore d'évaluation
Cours de Maths 4è
51 pages
Partie 5
Pas encore d'évaluation
Partie 5
6 pages
Devoir de Synthèse #3
100% (2)
Devoir de Synthèse #3
2 pages
Oscillateur Harmonique Libre Amorti Par Frottements Fluides
Pas encore d'évaluation
Oscillateur Harmonique Libre Amorti Par Frottements Fluides
5 pages
Powerpoint-Statique-Des Fluides
Pas encore d'évaluation
Powerpoint-Statique-Des Fluides
16 pages
Écoulement diphasique air-eau en T
Pas encore d'évaluation
Écoulement diphasique air-eau en T
7 pages
I Didactique&Didactique Disciplinaire
Pas encore d'évaluation
I Didactique&Didactique Disciplinaire
14 pages
Les Nombres Premiers
Pas encore d'évaluation
Les Nombres Premiers
8 pages
DC (14) 2emes2021
Pas encore d'évaluation
DC (14) 2emes2021
1 page
Devoir Numéro 2 : Chloroplastes et ATP
Pas encore d'évaluation
Devoir Numéro 2 : Chloroplastes et ATP
2 pages
Types D'ellipsoïdes
Pas encore d'évaluation
Types D'ellipsoïdes
2 pages
TD Electrostatique Série 3
Pas encore d'évaluation
TD Electrostatique Série 3
2 pages
Équipement Technique de L'automobile Barre Antiroulis
Pas encore d'évaluation
Équipement Technique de L'automobile Barre Antiroulis
12 pages
Luminaria Classique Fernandinas LED
Pas encore d'évaluation
Luminaria Classique Fernandinas LED
3 pages
Corrige - Serie2 - Dynamique Des Structures 2020 2021
Pas encore d'évaluation
Corrige - Serie2 - Dynamique Des Structures 2020 2021
9 pages
Bac 2023 Polynésie STI2D Physique-Chimie Et Mathématiques
100% (3)
Bac 2023 Polynésie STI2D Physique-Chimie Et Mathématiques
8 pages
TP Pendule Simple : Mesure de g
Pas encore d'évaluation
TP Pendule Simple : Mesure de g
4 pages
Renforcement des Pentes par Géotextile
Pas encore d'évaluation
Renforcement des Pentes par Géotextile
62 pages
EXERCICES UNITÉS 6 ET 7 (Corrigé)
Pas encore d'évaluation
EXERCICES UNITÉS 6 ET 7 (Corrigé)
13 pages