0% ont trouvé ce document utile (0 vote)
82 vues86 pages

En Vue de L'obtention Du Diplôme Master

Transféré par

Menel Bouzegza
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
82 vues86 pages

En Vue de L'obtention Du Diplôme Master

Transféré par

Menel Bouzegza
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

‫الجمهورية الجزائرية الديمقراطية الشعبية‬

République Algérienne Démocratique et Populaire

‫وزارة التعليم العالي والبحث العلمي‬


Ministère de L'Enseignement Supérieur et de la Recherche Scientifique

-1-‫جامعة سعد دحلب البليدة‬


Université Saad Dahlab Blida -1-

Mémoire de fin D’études

En vue de l’obtention du diplôme Master

Faculté de sciences
Département : Mathématiques

Spécialité : Modélisation stochastique et statistique

THEME

Modélisation et prévision par des modèles temporeles,


application sur COVID19 en Algérie

Présenté par : Soutenu le : 26 / 09 /2020


LAIB Mohammed
Devant le Jury :

Président : O.TAMI MAA Université de Blida 1

Promoteur : A .RASSOUL MCA ENSH de Blida

Examinateur : R.FRIHI MAA Université de Blida 1

Promotion : 2019/2020
Dédicace
Je dédie ce modeste travail à
A mes parents qui peuvent être fiers et trouver
ici le résultat de nombreuses années de
sacrifice. Merci pour les nobles valeurs,
l'éducation et le soutien continu qui sont
venus de vous.
À mon cher frère et sœur Qui n’ont cessé
d’être pour moi des exemples de persévérance,
de courage et de Générosité. Dieu vous garde
pour moi.
A mon encadreur RASOUL Abdelaziz, en
espérant qu'il trouve dans ce travail le
témoignage de ma profonde gratitude.
A tout mes enseignants de l'université de
Saad Dahlab Blida1 sans exception.
A mes amis et camarades de classe.
REMERCIMMENTS
La chose la plus importante dans la vie d'un
homme est d'être reconnaissant et d'être son plus
grand atout
Il est dommage que cela ne soit utile à personne.
Ce n'est pas mon habitude d'être ingrat. Il utilise
Je suis donc heureux de rendre mes premiers
remerciements à Dieu Tout-Puissant, qu’il m'a
donné la volonté et le courage de faire ce travail
humble.
Je voudrais exprimer ma profonde gratitude au
promoteur du RASOUL Abdelaziz, qui a été
heureux de travailler avec lui sous sa supervision
pour ses conseils et ses critiques constructives.
Je remercie sincèrement les membres du jury
d'avoir accepté de faire partie du comité
d’examinassions.
Au final, je ne pourrai pas terminer cette partie
sans exprimer ma gratitude mes parents, frères et
sœurs qui m'ont toujours soutenu et encouragé
pendant mes études.

Laib
‫ملخص‬

‫الهدف من هذا العمل هو دراسة تقنيات تحليل السالسل الزمنية و نمذجتها من‬

‫اجل التنبؤ بالقيم المستقبلية‬

‫وقد قمنا في هذا العمل بدراسة نماذج أريما باستخدام تقنيات بوكس – جنكيس ومرشح‬
. ‫كالمان من اجل التنبؤ بالقيم المستقبلية‬

‫وقد طبقنا في نهاية العمل هذه التقنيات على معطيات حقيقية تتمثل في دراسة عدد االصابات‬
.‫ في الجزائر باستعانة ببرنامج االحصائي ار‬19 ‫وعدد الوفيات بفيروس كورونا‬

. ‫ أريما‬، ‫ أرما‬، ‫ مرشح كالمان‬، ‫بوكس _جنكيز‬، ‫ سلسلة زمنية‬: ‫الكلمات المفتاحية‬

Résumé
L’objectif de ce travail est d’étudier les techniques d’analyse et de modélisation des séries
chronologiques afin de prédire les valeurs futures.
Dans ce travail, nous avons étudié les modèles ARIMA en utilisant les techniques Box-Jenkis
et le filtre de Kalman afin de prédire les valeurs futures.
A la finn des travaux, nous avons appliqué ces techniques à des données réelles, représentées
par l’étude du nombre d’infections et du nombre de décès par Coronavirus 19 en Algérie, à
l’aide du programme statistique R.
Mots clés : Série temporelle, Box-Jenkins, Filtre de Kalman , ARMA, ARIMA.

Summary
The objective of this work is to study the techniques of analysis and modeling of time series in
order to predict future values.
In this work, we studied ARIMA models using Box techniques and the Kalman filter in order
to predict future values.
At the end of the work, we applied these techniques to real data, represented by studying the
number of infections and the number of deaths with Coronavirus 19 in Algeria, using the
statistical program R.
Key words : Time Series, Box, Kalman Filter, ARMA, ARIMA
TABLE DES MATIÈRES

1 Généralités sur les séries chronologiques 2


1.1 Rappel sur les variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Généralités sur les séries chronologiques . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Schémas de décomposition d’une série chronologique . . . . . . . . 4
1.2.2 Procédure de choix d’un schéma de décomposition . . . . . . . . . 4
1.2.2.1 Plusieurs méthodes pour estimer la tendance . . . . . . . . 4
1.2.2.2 Méthode de calcul des coefficients saisonniers . . . . . . . 5
1.2.2.3 désaisonnalisée la série . . . . . . . . . . . . . . . . . . . . . 6
1.3 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Opérateur de retard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Opérateur différence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.3 Opérateur différence saisonnière . . . . . . . . . . . . . . . . . . . . . 7
1.4 Stationnarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.1 Fonction d’autocorrélation d’une série stationnaire . . . . . . . . . 7
1.4.2 Fonction d’autocorrélation théorique. . . . . . . . . . . . . . . . . . 8
1.4.3 Fonction d’autocorrélation empirique . . . . . . . . . . . . . . . . . 8
1.4.4 La fonction d’autocorrélation partielle . . . . . . . . . . . . . . . . . 9
1.4.5 Bruit blanc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.6 Test de blancheur : le test du portemanteau. . . . . . . . . . . . . . . 12
1.4.7 Test de Durbin-Watson. . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.8 Série linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.9 Modèles autorégressifs, moyennes mobiles . . . . . . . . . . . . . . . 14
1.4.9.1 Processus Auto Régressif d’ordre p, AR(p) . . . . . . . . . . 14
1.4.10 Processus Moyen mobile d’ordre q, MA(q) . . . . . . . . . . . . . . . 15
1.4.10.1 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.11 Processus ARMA(p,q) . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.11.1 Fonction d’autocorrélation d’un AR . . . . . . . . . . . . . . 17

iv
TABLE DES MATIÈRES

1.4.11.2 Fonction d’autocorrélation d’un MA . . . . . . . . . . . . . 18


1.4.11.3 Inversibilité des modèles MA (q) . . . . . . . . . . . . . . . 19
1.4.11.4 Processus ARMA(p,q) (Autoregressive-Moving Average) . . 21
1.4.11.5 ACF pour les modèles ARMA (p, q) . . . . . . . . . . . . . . 22
1.4.12 Processus autorégressif intégré à moyenne mobile ARIMA . . . . . . 23
1.4.13 Modèle saisonnière ARIMA (SARIMA) . . . . . . . . . . . . . . . . . . 24
1.5 Les processus aléatoires non stationnaires . . . . . . . . . . . . . . . . . . . 25
1.5.1 Test de non-stationnarité : test Dickey-Fuller . . . . . . . . . . . . . 27
1.5.2 Test de Dickey-Fuller augmenté . . . . . . . . . . . . . . . . . . . . . 28
1.6 La méthodologie de Box et Jenkins . . . . . . . . . . . . . . . . . . . . . . . . 29
1.7 Critère d’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.8 Estimation des paramètres et validation du modèle . . . . . . . . . . . . . . 30
1.8.1 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . 30
1.8.2 Vérification et validation . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.9 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2 Prévision par les séries chronologiques 33


2.1 Les modéles d’état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2 Filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.1 Equations du filtre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.2 Le filtre d’information . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3 Modèle d’état pour un processus ARMA . . . . . . . . . . . . . . . . . . . . . 39
2.3.1 Modéle d’état pour un AR(p) . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.2 Modèle d’état pour un ARMA(p,q) . . . . . . . . . . . . . . . . . . . . 40
2.4 Identification “robuste” d’un processus ARMA . . . . . . . . . . . . . . . . . 41
2.4.1 Cas d’un MA : l’algorithme des innovations . . . . . . . . . . . . . . 41
2.4.2 L’algorithme de Durbin-Levinson . . . . . . . . . . . . . . . . . . . . 42
2.4.3 Algorithme de Yule Walker . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4.4 Cas général d’un ARMA(p, q) . . . . . . . . . . . . . . . . . . . . . . . 43
2.4.5 Détails pour la prédiction . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.6 Identification paramétrique d’un processus ARMA . . . . . . . . . . 45
2.4.7 Validation d’un modéle : critéres de contrôle sur le résidu . . . . . . 46
2.4.8 Méthodes de sélection . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3 Application sur la prévision du COVID19 48


3.1 Analyse de COVID19 en algérie . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.1 La prédiction sur le nombre d’infections par COVID19 . . . . . . . . 49
3.2 Test de tendance Mann-Kendall dans R . . . . . . . . . . . . . . . . . . . . . 55
3.3 Prévision par la méthode de Box-Jenkins . . . . . . . . . . . . . . . . . . . . 57
3.3.1 Identification du modèle . . . . . . . . . . . . . . . . . . . . . . . . . 57

v
TABLE DES MATIÈRES

3.3.1.1 Estimation des paramétres . . . . . . . . . . . . . . . . . . 57


3.3.2 Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.3 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4 Prévision par filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4.1 Repréresntation graphique de la prévision . . . . . . . . . . . . . . . 62
3.5 Prévision du nombre de décés dus à le virus COVID19 en Algérie . . . . . . 63
3.5.1 Résultats de la Statistique descriptive . . . . . . . . . . . . . . . . . . 63
3.5.2 Analyse de la série temporelle . . . . . . . . . . . . . . . . . . . . . . 64
3.5.3 Application de la méthode de Box-Jenkins . . . . . . . . . . . . . . . 68
3.5.3.1 Estimation des paramétres . . . . . . . . . . . . . . . . . . . 68
3.5.3.2 Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.5.3.3 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.5.4 La prévision par filter de Kalman . . . . . . . . . . . . . . . . . . . . . 71
3.5.4.1 Repésentation graphique . . . . . . . . . . . . . . . . . . . . 74
3.5.5 Comparaison entre prévision par la méthode Box et filtre de Kalman 75

vi
TABLE DES FIGURES

2.1 Filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39


2.2 Schéma de prédiction par filtre de Kalman . . . . . . . . . . . . . . . . . . . 47

3.1 Histogramme des observations des infectés . . . . . . . . . . . . . . . . . . 49


3.2 Représentation graphique de la série cas de d’infection par COVID19 . . . 50
3.3 Représentation graphique d’autocorrélation de la série cas de d’infection
par COVID19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4 Représentation graphique d’autocorrélation partielle de la série obse . . . 51
3.5 les composantes d’une série temporelle . . . . . . . . . . . . . . . . . . . . . 52
3.6 Représentation graphique de la série obse différenciation . . . . . . . . . . 53
3.7 Autorrélation simple de la série obse différencier . . . . . . . . . . . . . . . 54
3.8 Autorrélation partielle de la série différencier . . . . . . . . . . . . . . . . . 55
3.9 Analyse de la tendance de la séries des infectés . . . . . . . . . . . . . . . . 56
3.10 Représentation graphique de la prévision par Box-Jenkins . . . . . . . . . . 60
3.11 Représentation graphique des observations . . . . . . . . . . . . . . . . . . 61
3.12 Représentation graphique des observations . . . . . . . . . . . . . . . . . . 61
3.13 Série chronologique ajustée par Filtre de Kalman . . . . . . . . . . . . . . . 62
3.14 Représentation graphique de la prévision par filtre de Kalman . . . . . . . 63
3.15 Histogramme de la série des décés en Algérie par COVID-19 . . . . . . . . . 64
3.16 Représentation graphique de la série des décés en Algérie par COVID-19 . 64
3.17 Autocorrélation simple ACF de la série des décés en Algérie par COVID-19 65
3.18 Autocorrélation partielle PACF de la série des décés en Algérie par COVID-
19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.19 Décomposition de la série des décés en Algérie par COVID-19 . . . . . . . 66
3.20 Représentation graphique de la série différencier . . . . . . . . . . . . . . . 67
3.21 Graphe de autorrélation simple de la série y différencier . . . . . . . . . . . 68
3.22 Graphe de autorrélation partielle de la série y différencier . . . . . . . . . . 68

vii
TABLE DES FIGURES

3.23 Repésontation graphique de la prévition des décés . . . . . . . . . . . . . . 71


3.24 Repésontation graphique de la série des décés . . . . . . . . . . . . . . . . . 71
3.25 Série chronologique filtrée par Kalman . . . . . . . . . . . . . . . . . . . . . 72
3.26 Série chronologique ajustée par Kalman . . . . . . . . . . . . . . . . . . . . 73
3.27 Repésentation graphique de prévision des décés par filtre de Kalman . . . 75

viii
LISTE DES TABLEAUX

3.1 Discription de la séries des cas d’infections en algérie . . . . . . . . . . . . 49


3.2 Résultats d’ajustements de la série des cas d’infections par COVID19 . . . 57
3.3 Résultats d’ajustements de la série des cas d’infections par COVID19 . . . 58
3.4 Estimation des coefficients du modèle d’ajustement . . . . . . . . . . . . . 58
3.5 Résultats du prévision par la méthode de Box-Jenkins . . . . . . . . . . . . 59
3.6 Résultats du prévision pour dix jours avec les bornes de confiances . . . . 62
3.7 Résultats discriptive des décés à cause de COVID-19 en Algérie . . . . . . . 63
3.8 Résultats d’ajustement de la série des décés par un modèle temporelle . . 69
3.9 Résultats de la prévision des décés par la méthode de Box-Jenkins . . . . . 70
3.10 Résultats de la prévision des décés par la méthode de Filtre de Kalman . . 73
3.11 Bornes de confiances de la prévision des décés par la méthode de Filtre
de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.12 Résultats de la prévision des décés par la méthode de Filtre de Kalman . . 74
3.13 Comparaison de la prévision des décés par les deux méthodes avec le
bilan réel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.14 Comparaison de la prévision des décés par les deux méthodes avec le
bilan réel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

ix
INTRODUCTION GÉNÉRALE

Connaître le futur, ou du moins avoir une idée du futur est l’un des soucis de l’Homme
depuis toujours. De nos jours aussi, les raisons socioéconomiques poussent à antici-
per l’avenir. Une question importante est de savoir sur quoi nous appuyer pour pré-
dire l’avenir. Il est donc primordial d’arriver à prévoir le mieux possible le futur en
s’appuyant sur le passé. D’une façon mathématique, on peut formuler le problème
de la prévision en supposant avoir N observations (x 1 , x 2 , ..., x N ) issues d’un processus
(un ensemble des variables aléatoires) quantifiant une certaine activité, dans notre cas
l’évolution du COVID19 et on souhaite connaître la valeur à une date future.
Dans le premier chapitre, nous présentons les définions les séries chronologiques,
la décomposition en principales composantes, et nous avons étudier et présenter les
modèles des séries chronologiques, telle que : AR, MA, ARMA, ARIMA de toutes sortes,
et à la fin de cet axe nous nous sommes familiarisés avec la méthode de prédiction
utilisant la technologie BOX-JENKINS qui Centré sur l’identification, estimation et va-
lidation.
Dans le deuxième chapitre, nous avons traité de la prédiction de l’utilisation de
filtre de KALMAN dont le principe est de corriger le chemin du modèle en combinant
des observations et des informations fournies par le modèle pour réduire l’erreur entre
l’état vrai et l’état filtré.
Dans le troisième nous avons appliqué ce que nous avons étudié dans le premier
et le deuxième axe aux données qui représentent le nombre d’infections et de décès
par COVID19 en Algérie, et à la fin de cet axe nous avons comparé entre la technologie
BOX-JENKINS et la technique de KALMAN, et les résultats de la prédiction à l’aide de
KALMAN étaient meilleurs que les résultats de la prédiction de BOX-JENKINS.

1
CHAPITRE 1

GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

1.1 Rappel sur les variables aléatoires


Définition 1.1 L’espérance mathématique est la notion des probabilités qui correspond
à la notion de moyenne en statistique descriptive. Formellement elle peut etre définie
comme somme des produits des valeurs d’une variable aléatoire par leur probabilité, ou
une intégrale de produit de la variable par sa densité.
— Si X est une v.a. absolument continue de densité f : R → R, la condition d’exis-
tence de l’espérance étant tout simplement la convergence absolue de cette inté-
grale généralisée, ce qui vu la positivité de f , se traduit par

Z+∞
|x| f (x) d x < +∞,
−∞

donc Z +∞
E (X ) = x f (x) d x
−∞
est l’espérance de X .
P
— si X est une v.a discréte. X (ω) est un ensemble fini ou dénombrable . x ∈ X (ω) |x|
P (X = x) < ∞, dans ce cas la série est finie donc elle convege. Alors

X
E (X ) = xP (X = x)
x ∈ X (ω)

est l’espérance de X .

Proposition 1.2 Soient X et Y deux v.a. intégrables, a et b deux réels . Alors les v.a X +Y
et aX + bY sont intégrables et
E (X + Y ) = E (X ) + E (Y ) . et E (a X + bY ) = aE (X ) + bE (Y ) .

2
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

Définition 1.3 La covariance entre les deux variables aléatoires X et Y est :

cov(X , Y ) = E (X Y ) − E (X )E (Y ).

Définition 1.4 La corrélation entre les deux variables aléatoires X et Y est :

cov(X , Y )
cor (X , Y ) = .
σx σ y

Définition 1.5 la méthode des moindres carrés permet alors de minimiser l’impact des
erreurs expérimentales en « ajoutant de l’information » dans le processus de mesure

Définition 1.6 Un processus stochastique est une suite de variables aléatoires réelles qui
sont indexées par le temps :X t ,t ∈ Z Ici t appartient à un espace discret, ce qui définit un
processus en temps discret.Un processus stochastique est donc une famille de variables
aléatoires X dont on va observer des valeurs réelles issues de l’espace S des échantillons
selon une certaine loi de probabilité.Pour chaque point s de l’espace des échantillons S,
la fonction qui associe X t (s) est appelée la trajectoire du processus.

1.2 Généralités sur les séries chronologiques


Définition 1.7 On appelle série chronologique (série temporelle ) une série statistique
à deux variables (t , Y t ) avec t ∈ T , T = {t 1, t 2 , t 3 , ..., t n } où la première composante du
couple t est le temps et la deuxième composante est une variable aléatoire numérique Y t
prenant ses valeurs aux instants t . Suivant la nature du problème étudié la chronique
peut être journalière (cours d’une action en bourse), mensuelle (consommation men-
suelle de gaz), trimestrielle (nombre trimestriel de chômeurs), annuelle (chiffre annuel
des bénéfices des exportations) etc.

L’étude des séries chronologiques sert à faire de la prévision à court, moyen et long
terme. Il existe des méthodes prévisionnelles quantitatives et qualitatives.

Définition 1.8 La tendance ou trend m t capte l’orientation à long terme de la série.

Définition 1.9 La composante saisonnière s t capte un comportement qui se répète avec


une certaine périodicité (toutes les 12 périodes pour des données mensuelles, toutes les 7
périodes pour des données quotidiennes..).

Définition 1.10 Composante irrégulière est une composante d’erreur, u t . Idéalement,


elle est de faible variabilité par rapport aux autres composantes.

A ces trois composantes, on ajoute parfois un cycle.

Définition 1.11 On appelle cycle un comportement qui se répète assez régulièrement


mais avec une périodicité inconnue et changeante.

3
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

1.2.1 Schémas de décomposition d’une série chronologique

La technique de décomposition d’une série chronologique, repose sur un modèle


qui l’autorise, ce modèle porte le nom de schéma de décomposition. Il en existe essen-
tiellement deux grands types :
— Schéma additif : Dans un modèle additif, on suppose que les 3 composantes :
tendance, variations saisonnières et variations accidentelles sont indépendantes
les unes des autres. On considère que la série Y t s’écrit comme la somme de ces
3 composantes :
Yt = mt + st + ut . (1.1)

— Schéma multiplicatif : On suppose que les variations saisonnières et les varia-


tions accidentelles dépendent de la tendance et on considère que Y t s’écrit de
la manière suivante :
Yt = mt × st × ut . (1.2)

1.2.2 Procédure de choix d’un schéma de décomposition

— La méthode de la bande :La procédure de la bande consiste à partir de l’examen


visuel du graphique del’évolution de la série brute à relier, par une ligne brisée,
toutes les valeurs « hautes » et toutes les valeurs «basses » de la chronique. Si
les deux lignes sont parallèles, la décomposition de la chronique peut se faire
selon un schéma additif ; dans le cas contraire le schéma multiplicatif semble
plus adapté.
— Le test de Buys-Ballot : Nous calculons, pour chacune des années, la moyenne
et l’écart type , puis nous estimons par MCO (Moindre Carrés Ordinaires) les pa-
ramètres α1 et α2 de l’équation si σi = α1 y i +α2 +εi . Dans le cas, ou le paramètre
α1 n’est pas significativement différent de 0 (test de Student) alors nous accep-
tons l’hypothèse d’un schéma additif ; dans le cas contraire, nous retenons un
schéma multiplicatif.

1.2.2.1 Plusieurs méthodes pour estimer la tendance

— Définir la tendance par la régression linéaire (ou régression plus complexe) de


y(t )en fonction du temps.
— Avantage : simple et rapide à calculer. Dûs aux effets saisonniers, l’ajustement
par une droite (ou autre) n’est pas toujours ad´equat (R 2 << 1).
— Utiliser une m´ethode plus locale appelée méthode des moyennes mobiles que
l’on combine le plus souvent à une régression linéaire (des moyennes mobiles
en fonction du temps).

4
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

— L’estimation de la tendance ne dépend pas du modèle (additif, multiplicatif,. . .


).
Méthode moyennes mobiles :
est utilisé pour éliminer les fluctuations à court terme et identifier la tendance
à long terme dans la série originale (pour créer une série lisse afin de réduire les
fluctuations aléatoires dans la série originale et estimer la composante tendance-
cycle).
La moyenne mobile d’ordre k à l’instant t correspond à la moyenne pondérée de
k +1, si kest pair, ou k, si k est impair, observations centrées autour de l’instant k. Cette
série temporelle est notée M k (t )
— si k est impair :
1
M k (t ) = (Y t −1 + Y t + Y t +1 ) (1.3)
k
— si k est pair :
1 Y t −2 Y t +2
M k (t ) = ( + Y t −1 + Y t + Y t +1 + ) (1.4)
k 2 2

1.2.2.2 Méthode de calcul des coefficients saisonniers

La série Y t est observée sur n année par période « p ». p = 12 mois ( j = 1, 2, . . . , 12)


ou 4 trimestres ( j = 1, 2, 3ou4).
Les variations saisonnières S j
— cas : Modèle additif.
— On calcule les données sans tendance Y t − m t .
— On calcule la moyenne des données sans tendance du mois j sur les n années,
ceci pour chacun des p période. D’où

1X n
Sj = (Yi j − m i j ). ∀ j = 1, 2, .., p. ∀i = 1, 2, ..., n.
n i =1

— On calcule la moyenne des coefficients saisonniers (S J )

p
− 1X
S= Sj .
p j =1

− −
— Si S , 0 on corrige les coefficient saisonniers (C S j ) : C S j = S j − S
cas : Modèle multiplicatif
Yt
— On calcule les données sans tendance mt
.
— On calcule la moyenne des données sans tendance du mois j sur les n années,
ceci pour chacun des p période

1X n Y
ij
Sj = . ∀ j = 1, 2, .., p. ∀i = 1, 2, ..., n.
n i =1 m i j

5
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

— On calcule la moyenne des coefficients saisonniers (S J )

p
− 1X
S= Sj
p j =1


— Si S , 1 on corrige les coefficient saisonniers (C S j )

SJ
CSj = − .
S

1.2.2.3 désaisonnalisée la série


∗ Yi j
Modèle multiplicatif : Y = C S
ij

Modèle additif :Y = Yi j −C S i j .

1.3 Définitions

Définition 1.12 La colinéarité exacte survient quand une combinaison linéaire des va-
riables explicatives est égale à une autre variable explicative.

Exemple 1.13 X 1 = αX 2 + βX 3 ∀α, β ∈ R.

1.3.1 Opérateur de retard

La manipulation pratique ou théorique des séries temporelles se trouve considé-


rablement simplifiée par l’usage de l’opérateur retard (Lag operator). On donne ici ses
propriétés élémentaires.
Opérateur retard. On note indifféremment B (backwards) ou L (lag), l’opérateur qui
fait passer de X t à X t −1 : B X t = X t −1 , on a :

B 2 X t = B (B X t ) = B X t −1 = X t −2 .

1.3.2 Opérateur différence

La différence première est :

∆X t = (1 − B )X t = X t − X t −1 .

parfois le premier opérateur de différence, utilisé pour supprimer la tendance de la


série.

6
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

La différence seconde est :

∆2 X t = ∆(∆X t ) = ∆((1 − B )X t ) = (1 − B )2 X t
= (1 − 2B + B 2 )X t = X t − 2X t −1 + X t −2 .

1.3.3 Opérateur différence saisonnière


Etant donné une série mensuelle, il peutêtre important d’en examiner les accrois-
sements d’une année sur l’autre (janvier sur janvier...).
L’opérateur différence saisonnière ∆12 = 1 − B 12 est utile dans ce cas.

∆12 X t = (1 − B 12 )X t = X t − X t −12 .

1.4 Stationnarité
Définition 1.14 Une série temporelle {Y t }, ou processus stochastique, est dite stricte-
ment stationnaire si la distribution conjointe de (Y t 1 , ..., Y t k ) est identique à celle de
(Y t 1+t , ..., Y t k+t ), quels que soient k le nombre d’instants considérés, (t 1 , ..., t k ) les instants
choisis et t , le décalage ; c’est-à-dire que, quels que soient le nombre de dates et les dates
choisis, quand on décale ces dates d’une même quantité, la distribution ne change pas.
En somme, la stationnarité stricte dit que la distribution conjointe de tout sous-vecteur
de {Y t }, quels que soient sa longueur et les instants choisis, est invariante quand on trans-
late ces instants d’une même quantité. Cette condition est difficile à vérifier et on utilise
une version plus faible de stationnarité,la stationnarité faible ou du second ordre, sou-
vent suffisante.

{Y t } est dite faiblement stationnaire si :


— E (Yi ) = µ, constante indépendante de t .
— cov(Y t , Y t −l ) ne dépend que de l entier et dans ce cas elle est notée :

γl = cov(Y t , Y t −l ).

1.4.1 Fonction d’autocorrélation d’une série stationnaire


Définition 1.15 Soit {Y t } une série à valeurs réelles, stationnaire. La covariance γl =
cov(Y t , Y t −l ) est appelée autocovariance d’ordre (ou de décalage) l . La fonction : l → γl
, l = ..., −1, 0, 1, 2, ...est la fonction d’autocovariance de {Y t }.

Cette fonction vérifie notamment :


— γ0 = v ar (Y t ) ≥ 0.

7
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

— ¯γl ¯ ≤ γ0 ∀l .
¯ ¯

— γl = γl −1 ∀l .
Cette fonction étant paire, on ne la représente que pourl = 0, 1, 2, .... On a égale-
ment :
La fonction d’auto covariance d’une série {Y t } faiblement stationnaire est de type
positif 1.
Cette propriété exprime le fait que la variance d’une combinaison linéaire de n
v.a.Y t 1 , ..., Y t n est positive.

1.4.2 Fonction d’autocorrélation théorique.

Définition 1.16 Le coefficient d’autocorrélation d’ordre l est :

cov (Y t , Y t −l ) cov (Y t , Y t −l ) γl
ρl = p = = .
v ar (Y t ) v ar (Y t −l ) v ar (Y t ) γ0
La dernière égalité tient car v ar (Y t −l ) = v ar (Y t ) = γ0 . Enfin, en notant que par la
stationnarité E (Y t ) = µ, indépendant de t , on a en terme d’espérance mathématique :

Y t − µ Y t −l − µ γl
£¡ ¢¡ ¢¤
E
ρl = = .
γ0
h¡ ¢2 i
E Yt − µ

La fonction : l → ρ l ; l = 0, 1, 2, ..., est la fonction d’autocorrélation (théorique) de


la série {Y t }.
Nous utiliserons l’abréviation anglaise, ACF, qui est aussi celle des sorties de R, de
préférence à FAC. On appelle son graphique corrélogramme. On voit que :

−1 ≤ ρ l ≤ 1 , ρ 0 = 1.

1.4.3 Fonction d’autocorrélation empirique


T
P Yt
Etant donné une série observée Y t , t = 1, ..., T , notons Ȳ = T
. L’autocovariance
t =1
empirique d’ordre l est
PT ¡ ¢¡ ¢
t =l +1
Y t − Ȳ Y t −l − Ȳ
γ̂l = , 0 ≤ l ≤ T − 1.
T
Le coefficient d’autocorrélation empirique d’ordre l est
PT ¡ ¢¡ ¢
t =l +1
Y t − Ȳ Y t −l − Ȳ
ρ̂ l = PT ¡ ¢2 . 0 ≤ l ≤ T − 1.
t =1 Y t − Ȳ

La fonction : l → ρ̂ l , l = 0, 1, 2, ...,est la fonction d’autocorrélation empirique.

8
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

Remarque 1.17 Observons que le dénominateur dans l’équation de coefficient d’auto-


corrélation empirique est T alors que le nombre de termes au numérateur dépend du
décalage. Il faut se garder de corriger l’estimation en adoptant un dénominateur dé-
pendant du nombre de termes dans la somme. En effet, avec un tel choix, la fonction
d’autocovariance empirique l → γ̂l ne serait plus de type positif.

1.4.4 La fonction d’autocorrélation partielle

Définition 1.18 L’autocorrélation partielle mesure la corrélation entre deux variables


aléatoires Y t et Y t +h à différents décalages h après en supprimant la dépendance linéaire
de Y t +1 à Y t +h−1 . PACF représente donc la séquence des corrélations conditionnelles :

φh,h = cor r (Y t , Y t +h | Y t +1 , ..., Y t +h−1 ), h = 1, 2, ...

— La fonction d’autocorrélation (AC F ) entre deux variables Y t et Y t +h à différents


décalages h ne s’ajustent pas pour l’influence des décalages intermédiaires :
l’ACF représente donc la séquence des corrélations inconditionnelles.

φh,h = cor r (Y t , Y t +h | Y t +1 , ..., Y t +h−1 )


cov [(Y t | Y t +1 , ..., Y t +h−1 ), (Y t +h | Y t +1 , ..., Y t +h−1 )]
= p p
v ar (Y t | Y t +1 , ..., Y t +h−1 ) v ar (Y t +h | Y t +1 , ..., Y t +h−1 )
£ ¡ ¢¤
cov (Y t − Ȳ t ), Y t +h − Ȳ t +h
= p q ¡ ¢
v ar (Y t − Ȳ t ) v ar Y t +h − Ȳ t +h

Ŷ t = α1 Y t +1 + α2 Y t +2 + ... + αh−1 Y t +h−1 ;


Ŷ t +h = β1 Y t +1 + β2 Y t +2 + ... + βh−1 Y t +h−1 ,

et αi , βi , (1 ≤ i ≤ h − 1) sont la régression linéaire quadratique moyenne coefficients


obtenus en minimisant les E (Y t − Ŷ t )2 et E (Y t +h − Ŷ t +h )2 respectivement
Équations de Yule-Walker et PACF pour le processus AR (p)
Les équations de Yule-Walker peuvent être utilisées pour dériver les coefficients
d’autocorrélation aux décalages 1, 2, ..., h comme suit :
— Ajuster le modèle de régression, où la variable dépendante Y t à partir d’un pro-
cessus stationnaire moyen nul est régressé sur le h variables retardées Y t −1 , Y t −2 , ..., Y t −h .
c’est à dire

Y t = φh,1 Y t −1 + φh,2 Y t −2 + ... + φh,h Y t −h + εt .

9
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

où φhh désigne le h-ième paramètre de régression et t est un terme d’erreur de


moyenne 0 et non corrélé à Y t −h , pour h , 0
— Multipliez cette équation par Y t −1 ; prendre les attentes et diviser les résultats
par la variance de Y t . Faites la même opération avec Y t −2 , Y t −3 , ..., Y t −h succes-
sivement pour obtenir l’ensemble suivant des équations h-Yule-Walker.
— Les équations de Yule-Walker sont une technique qui peut être utilisée pour
estimer les paramètres d’autorégression du modèle AR(h) ,

h
φi Y t −i + εt
X
Yt =
i =1

à partir des données.

ρ 1 = φh,1 + φh,2 ρ 1 + φh,3 ρ 2 + ... + φh,h ρ h−1


ρ 2 = φh,1 ρ 1 + φh,2 + φh,3 ρ 1 + ... + φh,h ρ h−2
.
ρ h = φh,1 ρ h−1 + φh,2 ρ h−2 + φh,3 ρ h−3 + ... + φh,h

Qui peut être représenté sous forme de matrice comme : AX = b ;


    
ρ1 1 ρ1 ρ 2 . . . ρ h−1 φh,1
    

 ρ2 
  ρ1 1
 ρ h−2  φ
  h,2


ρ3 
  ρ2 ρ1 1 . . . ρ h−3    φh,3
    
   
 
. = . . .  .
    
 
    

 . 
 
 . .  .



    

 . 
  .
 . .  .



ρh ρ h−1 ρ h−2 .. 1 φh,h
 
1 ρ1 ρ2 . . . ρ1
 

 ρ1 1 ρ2 

ρ2 ρ1 1 . . . ρ3
 
 

 
ρh =  . . .
 

 

 . . 

 

 . . . 

ρ h−1 ρ h−2 ... ρh

où ¯∗¯
¯ρ h ¯
¯ ¯
φ̂hh = ¯ ¯
¯ρ h ¯
¯∗¯
¯ρ h ¯ = le déterminant de la matrice (ρ h ) dans laquelle on remplace la dernière co-
¯ ¯

10
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

lonne par le vecteur ρ 1 , ..., ρ h .


¡ ¢

Remarque 1.19 — La fonction d’autocorrélation partielle φh;h est une fonction de


la autocorrélations ρ 1 , ρ 2 , ..., ρ h . Donc

−1 ≤ φhh ≤ 1, ∀h > 0.

— Si (εt ) est un processus de bruit blanc, alors l’autocorrélation partielle fonction


φhh = 0 pour tout h , 0, alors que

φ00 = ρ 0 = 1.

— Si le processus sous-jacent est AR(p),

φh;h = 0 , ∀h > p,

donc le graphique du P AC F doit montrer un seuil après le décalage p.


— Remplacement de ρ h (autocorrélations de population) par ρ̂ h (échantillon auto-
corrélations) ∀h donnera l’échantillon PQC F φ̂h;h (voir Méthode de récursivité
Levinson-Durbin)

Méthode récursive de Levinson-Durbin


En pratique, l’échantillon PACF est obtenu par Levinson-Durbin méthode de ré-
cursivité commençant par φ̂1;1 = ρ̂ 1 , comme suit :
Ph
ρ̂ h+1 − j =1 φ̂h; j ρ̂ h+1− j
φ̂h+1;h+1 = Ph ;
1− j =1 φ̂h; j ρ̂ j

et
φ̂h+1, j = φ̂h, j − φ̂h+1,h+1 φ̂h,h+1 , pour j = 1, 2, ..., h.

1.4.5 Bruit blanc


Définition 1.20 Un bruit blanc {Z t } est une suite de v.a. non corrélées (mais pas néces-
sairement indépendantes) de moyenne nulle et de variance constante σ2z .

C’est donc une série faiblement stationnaire. On note Z t ∼ B B 0, σ2z .


¡ ¢

Définition 1.21 Un bruit blanc gaussien {Z t } est une suite de v.a. i.i.d. N (0, σ2z ), on note :
Z t ∼ B B N (0, σ2z ).

Un bruit blanc gaussien est une série strictement stationnaire.Examinons ce que


deviennent les coefficients d’autocorrélations empiriques quand ils sont calculés sur
une série dont tous les coefficients d’autocorrélations théoriques sont nuls.

11
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

Proposition 1.22 Si y t , t = 1, ..., T est une observation d’une suite de v.a. i.i.d. de mo-
ment d’ordre 2 fini, E (y t2 ) < ∞, alors les ρ l sont approximativement indépendants et
normalement distribués de moyenne 0 et de variance 1/T .

1.4.6 Test de blancheur : le test du portemanteau.


Ph
j =1 ρ̂ j
2
Soit la série observée Y t ,t = 1, ..., T , considérons la statistique : Q(h) = T
où h est un décalage choisi par l’utilisateur et ρ j l’estimation du coefficient d’au-
tocorrélation d’ordre j de la série Y t . Q(h) est appelée statistique de BoxPierce. Elle
permet de tester :
H0h : ρ 1 = ρ 2 = ... = ρ h = 0
H1h :au moins un des ρ 1 , ρ 2 , ..., ρ h est non nul.
Q(h) est la distance du χ2 du vecteur (ρ 1 , ρ 2 , ..., ρ h ) au vecteur (0, 0, ..., 0) et on rejette
l’hypothèse H0h pour les grandes valeurs de Q(h).
En effet, sous l’hypothèse que {Y t } est une suite de v.a. i.i.d. et vu la propriété Le
coefficient d’autocorrélation ,Q(h) n’est autre que

h h µ ρ̂ − 0 ¶2
j
ρ̂ 2j
X X
Q(h) = T = p
j =1 j =1 1/ T

c’est-à-dire la somme des carrés de h variables approximativement N (0, 1). Or, sa-
chant que le carré d’une variable N (0, 1) suit une loi χ21 et que la somme de deux v.a.
indépendantes et distribuées suivant des lois χ2n1 et χ2n2 suit une loi χ2n1+n2 , la loi de
Q(h) est bien approximativement χ2h , sous l’hypothèse nulle. Notons qu’on doit choi-
sir h, le nombre de coefficients dont on teste la nullité
Remarques (Variantes du test de blancheur)

♣ Pour des petits échantillons on utilise la statistique de Ljung-Box :

h ρ̂ 2k
Q ∗ (h) = T (T + 2)
X
k=1 T −k

Elle a une distribution de probabilité mieux approchée par un χ2 que la statis-


tique de Box-Pierce.

♣ Quand le test est appliqué non sur des v.a. indépendantes, mais sur les rési-
dus d’un ajustement estimant m paramètres, la loi approchée sous l’hypothèse
nulle est un χ2 à h − m degrés de liberté.

12
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

1.4.7 Test de Durbin-Watson.

Le test de Durbin-Watson est un test d’absence d’autocorrélation d’ordre 1 sur le


résidu d’une régression linéaire. Il s’intéresse à la situation

y t = x t0 β + u t , t = 1, ..., T, u t = ρu t −1 + z t

où x t est un vecteur de p + 1 variables explicatives (dont la constante), zt ∼ B B .


Il teste H0 : ρ = 0. La statistique de Durbin-Watson est
PT 2
t =2 (û t − û t −1 )
DW = PT 2
,
t =1 û t

où u t est le résidu de l’ajustement par moindres carrés ordinaires de y t sur x t . En dé-


veloppant numérateur et dénominateur, on voit que

DW ' 2(1 − ρ̂)

où PT
t =2 û t −1 û t
ρ̂ = PT 2
.
t =1 û t

Les valeurs de DW proches de 0 indiquent une autocorrélation proche de 1.


Pour le test de : H0 : ρ = 0 contre H1 : ρ > 0, la région critique correspond à de
faibles valeurs de DW (DW sensiblement inférieur à 2) et pour H1 : ρ < 0, la région
critique correspond à de fortes valeurs de DW

Remarque 1.23 Pratiquement une statistique DW 2 peut être le signe d’une mauvaise
spécification du modèle (par exemple, ajustement d’une tendance linéaire alors que la
tendance réelle est quadratique).

1.4.8 Série linéaire

Définition 1.24 Une série {Y t } est dite linéaire si elle peut s’écrire :

+∞
Yt = µ + ψi z t −i ,
X
i =−∞


z t ∼ B B (0, σ2 )

ψ0 = 1, et la suite ψi est absolument sommable, c’est-à-dire i ¯ψi ¯ ≺ ∞.


© ª P ¯ ¯

Définition 1.25 Une série {Y t } est dite linéaire et causale si elle est linéaire avec ψi = 0,

13
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

i <0:

Yt = µ + ψi z t −i .
X
i =0

On admettra qu’une série linéaire est stationnaire. L’étude des séries non causales
conduit à des résultats non intuitifs difficilement utilisables, aussi nous ne considére-
rons parmi les séries linéaires que des séries causales . L’écriture


Yt = µ + ψi z t −i ,
X
i =0

comme somme de v.a. non corrélées permet d’obtenir facilement :


E (y t ) = µ, v ar (y t ) = σ2z (1 + ψ2i )
X
i =1

γl = cov(y t , y t −1 ) = σ2z ψi ψi −1
X
i =1

1.4.9 Modèles autorégressifs, moyennes mobiles


1.4.9.1 Processus Auto Régressif d’ordre p, AR(p)

Dans le processus autorégressive d’ordre p, l’observation présente Y t est générée


par une moyenne pondérée des observations passées jusqu’à la p-ième période sous
la forme suivante :

Y t = c + φ1 Y t −1 + φ2 Y t −2 + ... + φp Y t −p + εt

Où εt est un bruit blanc de moyenne nulle et de variance σ2ε ,avec φp , 0


— En introduisant l’opérateur retard B : φp (B )Y t = c + εt .dans ce cas

c
E (Y t ) = µ =
1 − φ1 − φ2 − ... − φp

φp (B ) = 1 − φ1 B − φ2 B 2 − ... − φp B p (1.5)

polynome de degrée p.
— modèle AR(p) est stationnaire ssi les racines en valeur absolue de φp (B ) = 0 > 1

Proposition 1.26 Le processus autorégressif d’ordre p admet une représentation M A(∞)


si elle stationnaire

Représentation de AR(P ) par M A(∞)

p
φp (B )Y t = εt , φp (B ) = 1 − φi B i , et εt ∼ B B (0, σ2 )
X
i =1

14
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

AR(P ) est un processus causal s’il peut être écrit dans un infini M A représentation
M A(∞)

φp (B )−1 φp (B )Y t = φp (B )−1 εt

Y t = φp (B )−1 εt = Ψ∞ (B )εt = Ψi εt −i
X
=⇒
i =0



Ψ∞ (B ) = φp (B )−1 , Ψ∞ (B ) = 1 + ψi B i ,
X
i =1

ψi satisfaire ∞
i =0 ψi < ∞ , avec ψ0 = 1.
P ¯¯ ¯¯

les coefficients ψi peuvent être obtenus par égalisation des coefficients dans la re-
lation φp (B )Ψ∞ (B ) = 1.
Donc

φp (B )Ψ∞ (B ) = (1 − φ1 B − ... − φp B p )(1 + ψ1 B + ψ2 B 2 + ...)


= 1 + (ψ1 − φ1 )B + (ψ2 − φ1 ψ1 − φ2 )B 2 + ...
+(ψ j − φ1 ψi −1 − ... − φp ψi −p )B i + ...

en assimilant des coefficients de différentes puissances B i dans la relation φp (B )Ψ∞ (B ) =


1, pour i = 1, 2, ..., on a

ψi = φ1 ψi −1 + φ2 ψi −2 + φ3 ψi −3 + ... + φp ψi −p ,

où ψ0 = 1 , et ψi = 0 si i < 0

1.4.10 Processus Moyen mobile d’ordre q, MA(q)

Dans le processus moyenne mobile d’ordre q, chaque observation X t est générée


par une moyenne pondérée d’aléas jusqu’à la q-ième période.

X t = εt + θ1 εt −1 + θ2 εt −2 + ... + θq εt −q

Où εt est un bruit blanc de moyenne nulle et de variance σ2ε .


En introduisant l’opérateur moyenne mobile

θ(B ) = 1 + θ1 B + θ2 B 2 + ... + θq B q .

on peut noter d’une façon équivalente : X t = µ + θ(B )εt .


Un M A(q) est toujours stationnaire quelles que soient les valeurs de θ ; il est de

15
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

moyenne µ.
On aimerait pouvoir exprimer ce processus en fonction de son passé (observé) et
pas seulement en fonction du bruit passé non observé. C’est la question de l’inversibi-
lité du processus. Examinons le cas d’un M A(1) centré :

X t = εt + θεt −1 = (1 + θB )εt . εt ∼ B B (0, σ2 ). (1.6)

On voit que si |θ| < 1, on peut développer (1 + θB )−1 en série :

(1 + θB )−1 = 1 − θB + θ 2 B 2 − θ 3 B 3 + ...

et écrire X t , AR(1), comme une autorégression infinie AR(∞) :

X t = εt + θX t −1 − θ 2 X t −2 + θ 3 X t −3 + ...

on dit qu’il est inversible. Observons que la condition d’inversibilité d’un M A(1) est
parallèle à la condition de représentation causale d’un AR(1).
Un M A(q) est dit inversible si on peut le représenter comme une autorégression infi-
nie.

1.4.10.1 Propriétés

Un M A(q) est inversible si les racines de 1 + θ1 B + θ2 B 2 + ... + θq B q = 0 , sont en


module, strictement supérieures à1.

1.4.11 Processus ARMA(p,q)


Les processus ARMA sont des mélanges des processus AR et MA. Il sont nécessaire-
ment, en pratique, finis X t obéit à un modèle ARMA(p, q) s’il est stationnaire et vérifie :

X t = c + φ1 X t − 1 + φ2X t − 2 + ... + φp X t −p + εt + θ1 εt −1 + θ2 εt −2 + ... + θq εt −q . (1.7)

εt est un bruit blanc avec c constante arbitraire,φp , 0, θq , 0 et les polynômes


1−φ1 B −φ2 B 2 −...−φp B p et 1+θ1 B +θ2 B 2 +...+θq B q n’ont pas de racines communes.
En utilisant l’opérateur retard, ce processus ARMA peut s’écrire comme suit :

1 − φ1 B − φ2 B 2 − ... − φp B p Y t = c + 1 + θ1 B + θ2 B 2 + ... + θq B q Y t εt
¡ ¢ ¡ ¢

Y t obéissant est stationnaire si, comme dans le cas des autorégressifs, les racines
du polynôme d’autorégression

1 − φ1 B − φ2 B 2 − ... − φp B p = 0 (1.8)

16
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

sont en module strictement supérieures à 1.


Par un calcul identique à celui fait pour un AR(p), on obtient que µ = E (Y t ) vérifie 1 − φ1 − φ2 − ... − φp
¡

c par la stationnarité,1 − φ1 − φ2 − ... − φp et µ = c/ 1 − φ1 − φ2 − ... − φp ainsi peut en-


¡ ¢

core s’écrire :

1 + θ1 B + θ2 B 2 + ... + θq B q
Yt = µ + εt
−φ1 B − φ2 B 2 − ... − φp B p
Nombre de valeurs consécutives de la série chronologique à prédire. Si h est null, le
nombre de valeurs consécutives à prédire est supposé être égal à la longueur de time-
series.test. Obligatoire lorsque timeseries.test est null.
On peut alors écrire une représentation M A(∞) de la série :


Yt = µ + ψi εt −i ψ0 = 1.
X
,
i =0

Par ailleurs, Y t , AR M A(p, q), est inversible si les racines de Θ(B ) sont en module
strictement supérieures à 1 et on peut écrire alors une représentation AR(∞) de la sé-
rie :

πi Y t −i + εt .
X
Yt = c +
i =1

— L’absence de racines communes dans (1.7) est une condition pour éviter la re-
dondance des paramètres.
— Il arrive que certaines racines du polynôme autorégressif soient égales à 1. L’au-
torégressif est alors non stationnaire et on dit qu’il est intégré d’ordre d si 1 est
d fois racine.

1.4.11.1 Fonction d’autocorrélation d’un AR

Partant de la représentation M A(∞) d’un AR(1) on obtient :

σ2
v ar (Y t ) = σ2 1 + φ2 + φ4 + ... =
¡ ¢
.
1 − φ2

La fonction d’autocorrélation de l’AR(1) est donc :ρ k = φk , k = 0, 1, 2, ...


Cette fonction décroît exponentiellement vers 0, en oscillant si φ < 0.
la fonction d’autocovariance d’un AR(p) Vérifier que :

γ0 = φ1 γ1 + φ2 γ2 + ... + φp γp + σ2ε

γl = φ1 γl −1 + φ2 γl −2 + ... + φp γl −p , l ≥ 1.

17
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

donc la fonction d’autocorrélation d’un AR(p) :

ρ l = φ1 ρ l −1 + φ2 ρ l −2 + ... + φp ρ l −p , l ≥ 1.

1.4.11.2 Fonction d’autocorrélation d’un MA

Commençons par calculer les moments d’ordre 2 d’un M A(1).

Y t = εt + θεt −1

de moyenne E (Y t ) = 0.
La variance de Y t définie par (1.6) est la variance d’une combinaison linéaire de
variables non corrélées, donc :

v ar (Y t ) = E (ε2t + 2θεt εt −1 + θ 2 ε2t −1 ) = 1 + θ 2 σ2ε ,


¡ ¢

cov(Y t , Y t −1 ) = cov(εt + θεt −1 , εt −1 + θεt −2 ) = θσ2ε .

on voit que cov(Y t , Y t −k ) = 0, k > 1.


donc la fonction d’autocorrélation M A(1) :
 
 1

 si h = 0 

θ
ρ(k) = 1+θ 2
si h = 1

 

 0 si h > 1 

Pq
pour M A(q) : Y t = θ ε , avec θ0
i =0 i t −1
= 1 , et εt −1 ∼ B B (0, σ2 )

q q
θi εt −1 ) = E (θi εt −1 ) = 0.
X X
E (Y t ) = E (
i =0 i =0
q
v ar (Y t ) = γ0 = (1 + θ12 + θ22 + ... + θq2 )δ2 = σ2 θi2
X
i =0

( Pq )
σ2 θθ
i =0 i i −h
si h = 0, ± 1, ± 2,..., ± q
γh =
0 si h  q

a AC F d’un M A(q) v´erifie :


 
γh  0 si h  q 
γh = = Pq
θ θ
γ0  i =0 i i −h
Pq si non 
θ2
i =0 i

18
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

1.4.11.3 Inversibilité des modèles MA (q)

Définition 1.27 Le processus M A(q) est inversible s’il peut être représenté forme AR in-
finie convergente AR(∞), Y t = θq (B )εt , avec

q
θq (B ) = 1 + θ j B q , εt ∼ B B (0, σ2 )
X
j =1

θq (B )−1 Y t = θq (B )−1 θq (B )εt = εt =⇒ π∞ (B )Y t = εt

Parce que π∞ (B ) = θq (B )−1 es coefficients πi peuvent être obtenus par égalisation des
coefficients dans la elation θq (B )π∞ (B ) = 1. Donc

θq (B )π∞ (B ) = (1 + θ1 B + ... + θq B q )(1 − π1 B − π2 B 2 − ...)


= 1 − (π1 − θ1 )B − (π2 + θ1 π1 − θ2 )B 2 − ...
−(π j + θ1 π j −1 + ... + θq π j −q )B j − ...

en assimilant des coefficients de différentes puissances B j dans la relation θq (B )π∞ (B ) =


1 pour j = 1, 2, ...

On a
π j = − θ1 π j −1 − θ2 π j −2 − ... − θq π j −q ,

avec π0 = −1 ,et π j = 0 pour j ≺ 0, où

∞ ∞
π∞ (B ) = θq (B )−1 = 1 − πi B i = − πi B i
X X
i =1 i =0

avec π0 = −1 , et πi satisfaire ,
¡ P∞ ¢
Notez que la condition de somme finie i =0 |πi | < +∞ assure que la série AR(∞)
est convergente

Exemple 1.28 Un exemple de processus M A(2) inversible est

Y t = εt − 0.1 εt −1 + 0.42 εt −2 .

les racines de
(1 − 0.1B + 0.42B 2 ) = (1 − 0.7B )(1 + 0.6B ) = 0

est
1
B1 = = 1.43 > 1
0.7
et
−1
B2 = , |B 2 | = 1.67 > 1,
0.6

19
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

alors le processus est inversible .

Maintenant, le processus dans une représentation AR(∞) s’écrit comme suit :


π j Y t −i + εt ,
X
Yt =
i =1

avec

πj = − θ1 π j −1 − θ2 π j −2 , q = 2, θ1 = −0.1, θ2 = 0.42, π0 = −1.


π1 = − θ1 π0 − 0 = −(−0.1)(−1) = −0.1
π2 = − θ1 π1 − θ2 π0 = −(−0.1)(−0.1) − (0.42)(−1) = 0.41.
π3 = − θ1 π2 − θ2 π1 − θ3 π0 = −(−0.1)(0.41) − (0.42)(−0.1) = 0.083

Ainsi, le processus M A(2) dans la représentation AR(∞) est

Y t = εt − 0.1Y t −1 + 0.41Y t −2 + 0.083Y t −3 + ... .

Propriété (Formule de Bartlett) :


Pour une série linéaire dont l’AC F vérifie : ρ k = 0, k > m, on a : ρ̂ ∼ N (0, v ar (ρ̂)).

1
v ar (ρ̂) ' (1 + 2ρ 21 + ... + 2ρ 2m ).
T
Ce résultat étend la Proposition (1.2). Il est précieux pour deviner (identifier) l’ordre
de moyenne mobile convenable pour modéliser une série. En effet, en présence d’un
corrélogramme empirique non significativement différent de 0 à partir d’un certain
ordre m + 1, on essaiera d’ajuster à la série correspondante un modèle dont l’AC F est
nulle à partir de l’ordre m + 1, un M A(m) . Mais comment savoir que l’ACF empirique
à partir de l’ordre m + 1 est une estimation de 0 ? La formule de Bartlett permet de
calculer des intervalles autour de 0 pour l’AC F d’un processus M A(m), à partir du
décalage m + 1 : pour chaque retard k > m on a en effet :
r r
1 1
ρ²(−1.96
b (1 + 2ρ 21 + ... + 2ρ 2m ), +1.96 (1 + 2ρ 21 + ... + 2ρ 2m ))
T T

avec une probabilité d’environ 95%.


Supposons en particulier que le processus étudié est un bruit blanc, alors ρ k , k > 0
p p
doit appartenir à l’intervalle −1.96/ T , + 1.96/ T à 95% environ. En superposant
p p
le graphique de l’ACF ρ k et cet intervalle ou son approximation −2/ T , +2/ T
,on peut voir si l’hypothèse de blancheur est raisonnable. On peu tracer ces intervalles
pour une série supposée bruit blanc (cf. Proposition 1.2 ). On représente habituelle-
ment ces intervalles sur les graphiques d’AC F empirique .On note que les autocorré-
lations sont bien incluses dans l’intervalle à 95% autour de zéro. Il peut arriver qu’avec

20
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

une autre simulation, une autocorrélation sorte de l’intervalle.

1.4.11.4 Processus ARMA(p,q) (Autoregressive-Moving Average)

Les processus AR M A sont des mélanges des processus AR et M A. Ils sont néces-
sairement,en pratique, finisY t obéit à un modèle AR M A(p, q) s’il est stationnaire et
vérifie :

Y t = φ1 Y t −1 + φ2 Y t −2 + ... + φp Y t −p + εt + θ1 εt −1 + θ2 εt −2 + ... + θq εt −q (∗)

εt est un bruit blanc , φp , 0 , θq , 0,et les polynômes 1 − φ1 B − φ2 B 2 − ... − φp B P et


1 + θ1 B + θ2 B 2 + ... + θq B q n’ont pas de racines communes.
— En utilisant l’opérateur retard, ce processus ARMA peut s’écrire comme suit :

1 − φ1 B − φ2 B 2 − ... − φp B P Y t 1 + θ1 B + θ2 B 2 + ... + θq B q εt
¡ ¢ ¡ ¢
=
φp (B )Y t = θq (B )εt

partie AR(p) partie M A(q), avec

p
φp (B ) = 1 − φ1 B − φ2 B 2 − ... − φp B P = 1 − φi B i
X
i =1

et
q
θq (B ) = 1 + θ1 B + θ2 B 2 + ... + θq B q = 1 + θi B i
X
i =1

— Si moyenne de Y t est µ, remplacer Y t par Y t − µ obtenir :

φp (B )(Y t − µ) = θq (B )εt .

peut également être écrit comme :

Y t = α + φ1 Y t −1 + φ2 Y t −2 + ... + φp Y t −p + εt + θ1 εt −1 + θ2 εt −2 + ... + θq εt −q


α = µ(1 − φ1 B − φ2 B 2 − ... − φp B P ).

1.4.11.4.1 Conditions de modéle ARMA Le modéle AR M A est supposé stationnaire,


inversible et identifiable, où :
— La condition de stationnaire c’est pareil pour le Processus AR(p), c’est-à-dire
les racines en valeur absolue de φp (B ) strictement supérieures à 1.
— La condition d’inversible c’est pareil pour le Processus M A(p), c’est-à-dire les
racines en valeur absolue de θp (B ) strictement supérieures à 1.

21
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

— La condition d’identifiable signifie que le modèle n’est pas redondant,c’est-à-


dire φp (B ) = 0 et θp (B ) = 0 n’ont pas de racines communes.

Exemple 1.29 Considérer AR M A(1, 2) :

Y t = 0.2Y t −1 + εt − 1.1εt −1 + 0.18εt −2

ce modèle peut s’écrire :

(1 − 0.2B )Y t = (1 − 1.1B + 0.18B 2 )εt

ou équivalent
(1 − 0.2B )Y t = (1 − 0.2B )(1 − 0.9B )εt ,

Il y a une racine commune donc le modèle est redondant annulation (1 − 0.2B ) des deux
côtés pour obtenir
Y t = (1 − 0.9B )εt .

Ainsi, le processus n’est pas vraiment un AR M A(1, 2), mais c’est un M A(1) ≡ AR M A(0, 1).

1.4.11.5 ACF pour les modèles ARMA (p, q)

Pour un modèle ARMA


p q
φ j Yt − j + θ j εt − j ,
X X
Yt =
j =1 j =0

avec θ0 = 1 ,

" #
p q
γh = cov(Y t +h , Y t ) = E (Y t +h Y t ) = E ( φ j Y t +h− j + θ j εt +h− j )Y t
X X
j =1 j =0
" #
p q ∞
φ j E Y t +h− j Y t + θ j E εt +h− j ψi εt −i
X £ ¤ X X
=
j =1 j =0 i =0
p q
φ j γh− j + σ2 θ j ψ j −h , pour h ≥ 0.
X X
=
j =1 j =h

Cela donne l’équation de différence homogène générale pour γh :

γh − φ1 γh−1 − φ2 γh−2 − ... − φp γh−p = 0 , pour h ≥ max(p, q + 1)

aux conditions initiales

p q
2
γh − φ j γh− j = σ θ j ψ j −h , pour 0 ≤ h ≤ max(p, q + 1).
X X
j =1 j =h

22
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

Diviser ces deux équations par γ0 nous permettra de résoudre pour l’AC F des mo-
γh
dèles AR M A(p, q) , ρ h = γ0

ρ h − φ1 ρ h−1 − φ2 ρ h−2 − ... − φp ρ h−p = 0 , pour h ≥ max(p, q + 1)

aux conditions initiales

p q
σ2 X
ρh − φ j ρ h− j θ j ψ j −h , pour 0 ≤ h ≤ max(p, q + 1).
X
=
j =1 γ0 j =h

Pour un AR causal (p), il résulte de la diapositive précédente que

ρ h − φ1 ρ h−1 − φ2 ρ h−2 − ... − φp ρ h−p = 0 , pour h ≥ P.

aux conditions initiales

2
ρ 0 − φ1 ρ −1 − φ2 ρ −2 − ... − φp ρ −p = σγ0
 

 


 

ρ 1 − φ1 ρ 0 − φ2 ρ 1 − ... − φp ρ 1−p = 0

 


 

 
 ρ − φ ρ − φ ρ − ... − φ ρ
 
p 2−p = 0

2 1 1 2 0
o ù ρ −h = ρ h , pour h = 1, 2, ..., p.


 ..................................... 



 




 ...................................... 



ρ p − φ1 ρ p−1 − φ2 ρ p−2 − ... − φp ρ 0 = 0

 

1.4.12 Processus autorégressif intégré à moyenne mobile ARIMA

Les modèles ARIMA sont des modèles non stationnaires et ont une structure proche
des modèles ARMA, ils sont intégrés et modélisables par des processus ARMA.

Définition 1.30 Un processus intégré est un processus qui peut être rendu stationnaire
par différenciation.

Si un processus doit être différencié d fois pour atteindre la stationnarité, il est dit
intégré d’ordre d , notant AR I M A(p, d , q) :

φp (B )(1 − B )d Y t = θq (B )εt ,

Y t une série chronique de moyenne 0 avec

φp (B ) = 1 − φ1 B − φ2 B 2 − ... − φP B p

et
θq (B ) = 1 + θ1 B + θ 2 B 2 + ... + θq B q

23
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

♦ Le processus AR I M A(1, 1, 1) peut être écrit comme suit :

(1 − φB )(1 − B )Y t = (1 + θB )εt

♦ Le processus AR I M A(2, 1, 1) peut être écrit comme suit :

(1 − φ1 B − φ2 B 2 )(1 − B )Y t = (1 + θB )εt

♦ Le processus AR I M A(1, 2, 2) peut être écrit comme suit :

(1 − φ1 B )(1 − B )2 Y t = (1 + θ1 B + θ2 B 2 )εt

Remarque 1.31 Les modèles ARIMA sont appliqués dans certains cas où les données
montrent preuve de non stationnarité, où une première étape de différenciation peut
être appliqué une ou plusieurs fois pour éliminer le non stationnarité.

— AR(p) ≡ AR I M A(p, 0, 0)
— M A(q) ≡ AR I M A(0, 0, q)
— AR I (p, d ) ≡ AR I M A(p, d , 0),
— I M A(d , q) ≡ AR I M A(0, d , q)
— AR M A(p, q) ≡ AR I M A(p, 0, q),
— B B ≡ AR I M A(0, 0, 0), B B est un bruit blanc.

1.4.13 Modèle saisonnière ARIMA (SARIMA)

Un processus non stationnaire possède souvent une composante saisonnière qui


se répète après une période de temps régulière, où le plus petit la période indiquée par
s est appelée période saisonnière.

Définition 1.32 Le modèle multiplicatif Seasonal AR I M A (S AR I M A) désigné par AR I M A


(p, d , q) × (P, D,Q)s , où s est le nombre de saisons :

φp (B )Φp (B s )(1 − B )d (1 − B s )D Y t = θq (B )ΘQ (B s )εt ,

Pp
^ φp (B ) = 1 − i =1 i
φ Bi polynôme en B de degré p,
Pq
^ θq (B ) = 1 + i =1 θi B i polynôme en B de degré q,
PP
^ Φp (B s ) = 1 − i =1 φi B
is
polynôme en B s de degré P ,
PQ
^ ΘQ (B s ) = 1 + θB
i =1 i
is
polynôme en B s de degré Q. sans racines communes
entre ΦP (B s ) et ΦQ (B s ), p,d et q sont l’ordre du modèle AR non saisonnier,
du modèle M A et ordinaire différenciation respectivement, alors que P , D, et

24
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

Q sont de l’ordre de modèle autorégressif saisonnier (S AR), moyenne mobile


saisonnière (SM A) et différenciation saisonnière respectivement

— L’idée est que les S AR I M A sont des modèles AR I M A(p, d , q) dont les résidus t
sont AR I M A(P, D,Q)dont les opérateurs sont définis sur les B s et les puissances
successives, où p, q et d sont les commande AR non saisonnière, commande
M A non saisonnière et différenciation non saisonnière respectivement,tandis
que P , Q et D sont l’ordre saisonnier AR (S AR), l’ordre saisonnier M A (SM A),
et différenciation saisonnière au décalage s respectivement.
— La différenciation saisonnière

∆s Y t = (1 − B s )Y t = Y t − Y t −s

supprimera la saisonnalité de la même manière que la différenciation ordinaire


∆Y t = Y t − Y t −1 supprimera une tendance polynomiale.

♦ Modèle S AR I M A(0, 1, 0) × (0, 1, 0)5 peut être écrit comme suit :

(1 − B )(1 − B 5 )Y t = εt

♦ Modèle S AR I M A(0, 1, 0) × (0, 1, 1)4 peut être écrit comme suit :

(1 − B )(1 − B 4 )Y t = (1 − θB 4 )εt .

1.5 Les processus aléatoires non stationnaires


Les processus stochastiques non stationnaires sont caractérisés par des propriétés
stochastiques qui évoluent en fonction du temps.On distingue deux types de processus
stochastiques non stationnaires : une non stationnarité de nature déterministe (TS) et
une non stationnarité de nature stochastique (DS)
— Description des processus TS
Un processus (Y t ) présente une non stationnarité de type déterministe TS (Trend
Stationnary), s’il peut se décomposer en une somme de deux fonctions : Y t = f t + εt
Tel que : εt : est un bruit blanc. f t : est une fonction polynomiale du temps.
polynomiale de degré 1, il s’écrit : Y t = α0 + α1 t + εt , où α0 , α1 ∈ R.
Les caractéristiques de ce processus sont :

E (Y t ) = α0 + α1 t

v ar (Y t ) = σ2 , cov(Y t , Y t −h ) = 0, ∀h , 0.

25
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

La non stationnarité de ce processus est dû au fait que son espérance dépend du


temps.
La méthode pour stationnariser un processus TS est d’estimer les coefficients α0 ,
α1 par MCO (Moindre Carrés Ordinaires) et de retrancher de la valeur de Y t En t la
valeur estimée de sa moyenne α̂0 + α̂1 t .
— Déscription d’un processus DS
DS sans dérive
Soit le processus DS sans dérive (AR(1)) :

Y t = Y t −1 + εt ⇐⇒ (1 − B )Y t = εt

La racine du polynôme caractéristique (1 − B ) est égale à 1. On dit que le processus


Y t a une racine unité, il est donc non stationnaire.
Ce processus DS sans dérive peut se réécrire sous la forme :

B Y t = Y t −1 + εt (1)

B Y t −1 = Y t −2 + εt −1 (2)
B Y t −2 = Y t −3 + εt −2 (3)

la somme de (1)+(2) éauqtions : Y t = Y t −2 + εt −1 + εt


la somme de (1)+(2)+(3) éauqtions : Y t = Y t −3 + εt −2 + εt −1 + εt
Pt
Si le premier terme de la chronique est Y0 , le modèle s’écrit alors :Y t = Y0 + i =0 εi
Les caractéristiques de ce processus sont (en supposant Y0 certain) : E (Y t ) = Y0

v ar (Y t ) = t σ2 .
cov(Y t , Y ť ) = σ2 min(t , ť ) si t , ť

Un processus DS sans dérive est un processus stationnaire en moyenne et non sta-


tionnaire en variance.
DS avec dérive
Considérons un processus DS avec dérive :

t
Y t = µ + Y t −1 + εt = t µ + Y0 + εj .
X
j =1

Un processus DS avec dérive est un processus non stationnaire en moyenne et en


variance. Ces moments évoluent en fonction du temps t. Un processus DS est un pro-
cessus que l’on peut stationnariser par l’application du filtre aux différences :

Y t = Y t −1 + εt =⇒ ∆Y t = εt

26
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

1.5.1 Test de non-stationnarité : test Dickey-Fuller


Dickey et Fuller ont construit leur test à partir des modèles de base suivants :

♣ Modèle(1) : Y t = φY t −1 + εt AR(1)

♣ Modèle(2) : Y t = c + φY t −1 + εt AR(1) avec constante.

♣ Modèle(3) : Y t = c + bt + φY t −1 + εt AR(1) avec constante et tendance.

Où εt est un bruit blanc de variance σ2 et b, c des constantes réelles. Le principe du


test consiste à tester l’hypothèse nulle de racine unitaire contre l’hypothèse alternative
d’absence de racine unitaire

H0 : φ = 1 & H1 : ¯φ¯ < 1


¯ ¯

Les modèles de base du test étant théoriques, l’application du test requiert l’esti-
mation en pratique de modèles :

♣ Modèle(1)’ :∆Y t = (φ − 1)Y t −1 + εt

♣ Modèle(2)’ : ∆Y t = c + (φ − 1)Y t −1 + εt

♣ Modèle(3)’ : ∆Y t = c + bt + (φ − 1)Y t −1 + εt
φ−1
On calcule la t-statistique t φ̂ qui est donnée par : t φ̂ = ^2
δ
t φ̂ sera comparée à la valeur critique tabulée notée t t ab et on applique la règle sui-
vante :

Ï Si t φ̂ < t t ab on rejette H0

Ï Si t φ̂ ≥ t t ab on accepte H0

En pratique, on n’effectue pas ce test sur les trois modèles mais on procède par une
stratégie séquentielle en trois étapes suivantes :
Etape 1 : On estime le modèle (3)’ et on teste la significativité de la tendance déter-
ministe(test de Student sur le paramètre b)
— Si cette tendance estimée n’est pas significativement différente de zero( donc la
t-statistique de la tendance est inférieure aux valeurs critiques de la tendance
tabulée par Dickey-Fuller) alors on passe à l’étape 2.
— Si la tendance est différente de zero, on teste l’hypothèse nulle unitaire :

Ï Si on accepte H0 , Y t est non stationnaire de type DS

Ï Si on rejette H0 , Y t est non stationnaire de type TS

Etape 2
On aura à appliquer cette étape que si à l’étape 1 on a rejeté l’idée d’une tendance
significative. On estime le modèle (2)’ et on teste la sigificativité de la constante c.
— Si H0 est acceptée Y t est non stationnaire de type DS

27
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

— Si H0 est rejetée Y t est stationnaire.


Etape 3
Si l’étape 2 detecte une constante nulle, alors on estime le modèle(1) et on effectue
le test de racine unitaire tel que :
— Si H0 est acceptée Y t est non stationnaire de type DS
— Si H0 est rejetée Y t est alors stationnaire.

1.5.2 Test de Dickey-Fuller augmenté


En passant au test de Dickey-Fuller, l’existence d’une racine unitaire conduit donc
à la différenciation de la série en question. Une fois la série différenciée, on peut se de-
mander si la nouvelle série obtenue après différenciation est stationnaire ou non. On
applique donc à nouveau le test de Dickey-Fuller et ainsi de suite. Selon Dickey et Pan-
tula, cette procédure dite séquentielle ascendante peut donner des résultats faux car
les distributions statistiques diffèrent suivant qu’il existe une ou deux racines unitaires.
Ainsi, ils ont proposé, en se réferant aux tables de Dickey-Fuller, une nouvelle procé-
dure dite séquentielle descendante.Cette procédure permet de tester en même temps
l’existence de plusieurs racines unitaires.Supposons que l’on veuille tester l’existence
de deux racines unitaires, alors le test se basera sur le modèle suivant :

Y t = φ1 Y t −1 + φ2 Y t −1 + φ1 φ2 Y t −2 + εt

Et en pratique on estime le modèle suivant :

∆2 Y t = φ1 Y t −1 + ∆φ2 Y t −1 + εt

Où l’on pose θ1 = −(φ1 − 1)(φ2 − 1)


et θ1 = (φ1 φ2 − 1).Le test se fait en deux étapes suivantes :
Etape 1
On teste l’hypothèse nulle de deux racines unitaires contre l’alternative d’une seule
racine unitaire
H 0 : θ1 = θ2 = 0 & H 1 : θ1 = 0

Sous l’hypothèse H1 , on estime ∆2 Y t = θ2 ∆Y t −1 + εt et on fait l’usage de la règle


suivante :
— Si t θ2 ≤ t t ab on rejette H0 et on passe à l’étape 2
— Si t θ2 > t t ab on accepte H0 , le processus contient donc deux racines unitaires.
Etape 2
Si à l’étape 1 on rejette l’hypothèse H0 , alors on peut appliquer l’étape 2.
On teste donc l’hypothèse nulle de la présence d’une racine unitaire contre l’hypothèse
alternative d’aucune racine unitaire dans

28
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

∆Y t = (φ1 − 1)Y t −1 + εt .Ce test sur(φ1 − 1)est l’équivalent de celui sur θ1 dans le mo-
dèle ∆2 Y t .

1.6 La méthodologie de Box et Jenkins

une méthodologie de modélisation d’une série chronologique univariée basée sur


les modèles linéaires ARMA, ARIMA. Cette méthodologie possède trois étapes : identi-
fication, estimation et validation

— Identification du modèle

En premier lieu, on examine le graphe représentatif de la série temporelle, ceci peut


donner une idée préliminaire sur le comportement de la série (stationnarité, tendance,
saisonnalité,...). Si la série présente une tendance et/ou une saisonnalité , des trans-
formations adéquates doivent être appliquées afin de stationnariser la série. L’idée gé-
nérale de l’identification dans la méthodologie Box-Jenkins, consiste à comparer la
structure des corrélations estimées que présente la série à travers le corrélogramme
(diagramme représentatif des autocorrélations estimées) avec la structure de corréla-
tion théorique exhibée par des modèles bien connus. Ainsi l’étude du corrélogramme
est très utile pour la détermination des ordres p et q, puisque les fonctions d’auto-
corrélation simples et partielle peuvent indiquer la présence d’un modèle moyenne
mobile ou auto-régressif respectivement. Plus précisément si la fonction d’autocorré-
lation simple décroit rapidement vers 0 et la fonction d’autocorrélation partielle pré-
sente un cut-off après p retard, on peut conclure que la série provient d’un proces-
sus AR d’ordre p(AR(p)). Si la fonction d’autocorrélation simple présente un cut-off
après q retards et que la fonction d’autocorrélations partielles décroit rapidement vers
0, alors on peut conclure que la série est générée à partir d’un modèle moyenne mobile
d’ordre q(MA(q)). On note que si les fonctions d’autocorrélations simples et partielles
présentent une forme exponentielle ou sinusoïdale, on constate qu’on est en présence
d’un processus auto-régressif à moyenne mobile ARMA(p, q). Cette étape n’est pas ai-
sée et demande beaucoup d’expertise, il existe cependant des méthodes d’identifica-
tions automatiques, basées sur le critère d’information.
AC F P AC F
Bruit blanc Tous les zéros Tous les zéros
AP (P ) S’évanouit avec une décroissance exponentielle coupure aprés le décalage p
M A(q) coupure aprés le décalage q S’évanouit avec une décroissance expone
AR M A(p, q) Fin après le décalage q-p Fin après le décalage p-q

29
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

1.7 Critère d’information


Il existe des critères d’informations qui sont utilisés, comme guide, dans le choix
du modèle, ce qui nous permet d’éviter la sélection arbitraire des paramètres p et q
du modèle. Parmi ces critères, il existe les critères d’information qui mesurent l’écart
entre la vraie loi inconnue et celle du modèle proposé ; les estimations de la qualité
d’information qui ont été proposées sont :

1. Critère d’Akaike(1969) appelé aussi AIC , il est défini comme suit

2(p + q)
AIC (p, q) = log σ2 + .
N

2. Critère Bayésien(1977) appelé aussi B IC , il est défini comme suit :

log(N )
B IC (p, q) = log σ2 + 2(p + q) .
N

1.8 Estimation des paramètres et validation du modèle

1.8.1 Estimation des paramètres


Après avoir terminé l’identification, il convient d’estimer les paramètres qui sont
les coefficients des polynômes AR et MA et la variance des résidus εt . La méthode
d’estimation la plus utilisée est celle du maximum de vraisemblance ou la méthode
des moindres carrés .Le principe consiste à construire une fonction dite de fonction de
vraisemblance et par la suite à maximiser son logarithme par rapport aux paramètres
θi ,θ j ,(avec i = 1, ..., p ; j = 1, ..., q),permettant ainsi de trouver la valeur numérique la
plus vraisemblable pour ces paramètres. L’étape d’estimation finie, l’étape suivante va
nous permettre de valider le modèle estimé.

1.8.2 Vérification et validation


Au début de cette étape on dispose de plusieurs processus ARMA dont on a estimé
les paramètres. Il faut maintenant valider ces modèles afin de les départager. Pour cela,
on applique des tests sur les paramètres et sur les résidus. Si plusieurs modèles sont
validés, l’étape de validation doit se poursuivre par une comparaison de qualité de ces
derniers.

a) Tests concernant les paramètres : Après avoir estimé les paramètres d’un mo-
dèle, on peut se poser la question de savoir si ces paramètres sont significative-
ment différents de zéro. Ces tests sont aussi appelés tests sur le modèle, car si
le test de significativité des paramètres détecte des paramètres non significatifs,

30
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

cela entraine automatiquement un changement dans l’ordre du modèle. Soit


un modèle AR M A(p; q).

1. On peut par exemple tester ṕ = p − 1 et q́ = q − 1. Ici il est question de sa-


voir si, on peut diminuer d’une unité l’ordre de la partie AR. Pour cela, on
utilise le test de Student qui va tester la signigicativité du coefficient φp . Soit
φ̂p l’estimateur de φp et V̂ (φ̂q ) sa variance estimée. En supposant que les
estimateurs sont normalement distribués au risque de 0.05 on compare la
valeur de la statistique t c donnée par,

¯φ̂¯
¯ ¯
tc =
(V (φ̂q ))2

à la valeur critique 1.96. Si t c est supérieure à 1.96, on rejette l’hypothèse φp


= 0. Dans le cas contraire on accepte l’hypothèse de nullité de φp .
2. On peut également tester p = p +1 et q́ = q. Dans ce cas, il s’agit de connaître
la possibilité d’augmenter l’ordre de la partie autoregressive. Donc il faut tes-
ter la significativité du coefficient φp+1 . Comme précédemment, on utilise la
statistique de Student. On compare alors le rapport

¯φp+1 ¯
¯ ¯
tc = 1
(V̂ (φ̂p+1 )) 2

à 1.96 (au risque de 0.05)

b) Tests concernant le bruit blanc : L’une des hypothèses qui doivent être vérifiées
de manière rigoureuse pour la validité d’un modèle ajustée est celle de bruit
blanc. En effet, si les résidus ne forment pas un bruit blanc on peut penser à
une mauvaise stationnarisation des données ou même à un mauvais choix du
modèle.

1. Test Portmanteau (Box et Pierce)


2. Test de Durbin-Watson
3. Test de Ljung et Box(amélioration du test du Portemanteau) : Ce test est
d’une part comme une amélioration du test de Box et Pierce. D’autre part,
si on ne connaît rien sur la structure du processus comme souvent c’est le
cas, le test de Ljung-Box est plus général que le test de Durbin-Watson. Il est
basé sur la statistique :
K ρ̂ 2 (h)
ε
X
Q́ = n(n + 2)
h=1 n −h

Q́ suit une loi de χ2 à (K − p − q)degrés de liberté et le test se déroule comme


celui de Box-Pierce.

31
CHAPITRE 1. GÉNÉRALITÉS SUR LES SÉRIES CHRONOLOGIQUES

On peut résumer la méthodologie de Box et Jeninks par le schéma ci-dessous.

1.9 Prévision
Soit (Y t )t ∈ T , un processus au second ordre réel et centré. On a que la fonction
d’autocovariance est notée γ(i , j ) = E (Yi Y j ). Soit Y1 ,Y2 ,...,Yn un échantillon de (Y t )t ∈
T , on note Hn = Y1 , Y2 , ..., Yn le sous espace fermé de L 2 (Ω, A, P ) engendré par (Y t )1 ≤
j ≤ n. On pose que Ŷ = 0 et Ŷ j = Hn−1 (Y j ). On suppose que la matrice K (i , j ) est
définie positive, on montre

H (n) = [(Y1 − Ŷ1 ), (Y2 − Ŷ2 ), ..., (Yn − Ŷn )]

Et on déduit que
n
θn, j (Yn+1− j − Ŷn+1− j )
X
Ŷn+1 =
j =1

pour n ≥ 1.
Pour des prévisions d’ordre h ≥ 1

n+h−1
θn+h−1, j (Yn+1− j − Ŷn+1− j )
X
Ŷn+h =
j =1

Si on écrit (Y t ) sous forme d’une moyenne mobile infinie :

∞ ¡
Y t = εt + b j εt − j
X ¢
j =1

On a l’intervalle de confiance au seuil de α = 0.05 d’où


" #
h−1
X³ ´ h−1
X³ ´
Y t ∈ Ŷn+h − 1.96σε ( b 2j , Ŷn+h + 1.96σε ( b 2j
j =0 j =0

32
CHAPITRE 2

PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

Le filtre de Kalman est une approche statistique, d’assimilation de données, dont


le principeest de corriger la trajectoire du modèle en combinant les observations avec
l’informatiofournie par le modèle de façon à minimiser l’erreur entre l’état vrai et l’état
filtré. Le filtre de Kalman a été utilisé dans un certain nombre d’études pour analyser
la variabilité des paramètres dans le temps .

2.1 Les modéles d’état


Les lettres en gras représentent des vecteurs-colonne.Un modèle d’état est consti-
tué de deux équations :
— une équation d’observation (ou de mesure) :

Y t = G t X t + Wt , t = 1, 2, ... (2.1)

— une équation d’état :


X t +1 = F t X t + Vt , t = 1, 2, ... (2.2)

Dans ces équations :

♣ Y t : est un vecteur de dimension ω

♣ X t : est un vecteur de dimension v

♣ G t : est une séquence temporelle de matrices (ω, v)

♣ F t : est une séquence temporelle de matrices (v, v)

♣ Wt : est une s´equence temporelle de vecteurs al´eatoires indépendants de di-


mension ω (bruit de mesure), de moyenne nulle et de matrice de covariance
R t (ω, ω)

33
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

♣ Vt : est une séquence temporelle de vecteurs al´eatoires ind´ependants de di-


mension v (bruit d’état), de moyenne nulle et de matrice de covariance Q t (υ, υ).

Les séquences Wt et Vt sont indépendantes entre elles, et décorrélées avec X 1 .


Dans de nombreux cas pratiques, les matrices F t , G t , Qt et R t sont ind´ependantes
du temps, et sont alors notées respectivement F , G, Q et R.
Il existe des formes plus générales de ces équations :
— les séquences Wt et Vt peuvent etre corrélées,
— un terme de controle H t u t peut venir s’ajouter dans le terme de droite de l’équa-
tion d’état, pour imposer un changement de X t +1 .

Proposition 2.1 Soient (Y1 , ..., Yn )des vecteurs al´eatoires de R k , U un vecteur aléatoire
de R d et V un vecteur aléatoire de R q .

i) Si A est une matrice v × d , alors :

P (AU |Y1 , ..., Yn ) = AP (U |Y1 , ..., Yn ).

ii) En notant M = E (U Y1T )(E (Y1 Y1T ))−1 , où S −1 désigne une matrice telle que

SS −1 S = S

(c’est une inverse généralisée), on a :

P (U |Y1 ) = MU ,

Notamment si V est d´ecorrélé de Y1 , alors :

P (U |Y1 ) = 0.

iii) Si V est d´ecorrélé de Y1 :

P (U |Y1 ,V ) = P (U |Y1 ) + P (U |V ).

2.2 Filtre de Kalman


Les formules récursives de Kalman ont pour objectif général de trouver des estima-
teurs linéaires optimaux, du vecteur d’état X k en fonction des observations Y1 , Y2 , ...
et d’un vecteur aléatoire Y0 orthogonal à Vt et Wt pour tout t ≥ 1 (on prend en géné-
ral pour Y0 le vecteur (1, 1, ...1)t . On notera P t (X k ) le meilleur prédicteur linéaire de
X k en fonction de Y0 , Y1 , ..., Y t . Les définitions de prédiction, filtrage, lissage sont les
suivantes :

34
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

 Prédiction : estimer (au sens d´efini ci-dessus) X t en fonction de Y0 , Y1 , ..., Y t −1

 Filtrage : estimer X t en fonction de Y0 , Y1 , ..., Y t

 Lissage : estimer X t en fonction de Y0 , Y1 , ..., Y t avec n > t

Soit P t (X k ) le meilleur prédicteur linéaire de X k en fonction de Y0 , Y1 , ..., Y t


Le filtre de Kalman a donc pour objectif de calculer à chaque instant t la valeur de
P t (X k ), ainsi que la matrice de covariance de l’erreur commise sur cet estimateur.
Pour cela, le filtre opére à chaque itération t en plusieurs étapes :
— Prédiction de l’état : calcul de P t −1 (X t ) et covariance associée C t |t −1 de l’erreur
de prédiction
— Prédiction de la mesure : calcul de P t −1 (X t )
— Calcul du terme d’innovation, égal à l’écart entre la mesure Y t et sa valeur pré-
dite, et de sa covariance S t
— Calcul du gain de filtrage K t
— Filtrage : calcul de P t (X t ) comme combinaison linéaire de la prédiction et de
l’innovation,et covariance associée C t |t de l’erreur d’estimation.

2.2.1 Equations du filtre

— Initialisation : Celle-ci consiste à donner une estimée deX à l’instant 0, soit


P 0 (X 0 ) ainsi que la matrice de covariance C 0|0 . Ceci se fait à partir des informa-
tions a priori dont on dispose sur l’état à l’instant 0 ; en absence d’information
a priori, C 0|0 sera pris trés grand, ce qui a pour effet d’accorder un poids négli-
geable à la valeur initiale.
— Formules récursives t = 1, 2, ...

1. Prédiction de l’état

P t −1 (X t ) = F t −1 P t −1 (X t −1 )
C t |t −1 = F t −1C t −1|t −1 F tT−1 +Q t −1

2. Prédiction de la mesure

P t −1 (Y t ) = G t P t −1 (X t )

3. Calcul de l’innovation à l’instant t et de sa covariance S t

υt = Y t − P t −1 (Y t )
St = G t C t |t −1G tT + R t

35
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

4. Calcul du gain K t
K t = C t |t −1G tT S −1
t

5. Estimation de l’état courant, comme combinaison linéaire de la valeur pré-


dite et de l’innovation

P t (X t ) = P t −1 (X t ) + K t v t
C t |t = C t |t −1 − K t S t K tT

Note1
La derniére équation : C t |t = C t |t −1 − K t S t K tT fait apparaitre explicitement la dimi-
nution de la covariance de l’erreur d’estimation apportée par une nouvelle mesure. On
peut l’écrire de façon équivalente :

C t |t = (I − K t G t )C t |t −1 (I − K t G t )T + K t R t K tT

issue de l’´equation :

P t (X t ) = (I − K t G t )P t −1 (X t ) + K t Y t

Note 2 :
Une mesure Y t de mauvaise qualité (R t → ∞) conduit à P t (X t ) = P t −1 (X t ) (la me-
sure Y t n’est pas prise en compte) ; une mesure Y t sans erreur (R t = 0) conduit à G t P t (X t ) =
Y t . Ci-dessous, on donne la démonstration des formules récursives du filtre de Kalman.
Démonstration : Rappelons que Vt −1 est décorrélé de X t −1 , et Wt est décorrélé de
Xt .

P t −1 (X t ) = P t −1 (F t −1 X t + Vt ) = F t −1 P t −1 (X t ) + P t −1 (Vt ) = F t −1 P t −1 (X t ).

Et de même, P t −1 (Y t ) = G t P t −1 (X t ). Pour estimer X t à l’instant t , i.e. en ayant ob-


servé Y1 , ..., Y t on décompose la projection à l’aide du point (iii) de la Proposition 2.1 :

P (X t |Y0 , ..., Y t ) = P (X t |Y0 , ..., Y t ) = P (X t |Y0 , ..., Y t ) + P (X t |v t ).

C’est à dire
P t (X t ) = P t −1 (X t ) + P (X t |v t ).

En utilisant le point (ii) de la Proposition 2.1 :

P (X t |v t ) = E (X t v tT )S −1
t vt ,

où S t = E (v t v tT ) est la matrice de covariance des innovations à l’instant t . Posons K t


=E (X t v tT )S −1
t .

36
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

Il reste à évaluer récursivement K t . En écrivant v t = G t (X t − P t −1 (X t )) + Wt , et en


notant que Wt est décorrélé de X t ,

E (X t v tT ) = E (X t (X t − P t −1 (X t ))T )G tT = C t |t −1G tT ,


C t |t −1 = E [(X t − P t −1 (X t ))(X t − P t −1 (X t ))T ].

On a :

C t |t −1 = E [X t X tT ] − E [P t −1 (X t )P t −1 (X t )T ]
= F t −1 E [X t −1 X tT−1 ]F tT−1 +Q t −1 − F t −1 E [|P t −1 (X t −1 )P t −1 (X t −1 )T ]F tT−1
= C t |t −1 +Q t −1 ,


C t |t = E [(X t − P t (X t ))(X t − P t (X t ))T ].

De même,

St = E (v t v tT ) = G t E [X t X tT ]G tT + R t −G t E [P t −1 (X t −1 )P t −1 (X t −1 )T ]G tT
= G t C t |t −1G tT + R t .

Enfin,

C t |t = C t |t −1 − E [(P t (X t ) − P t −1 (X t ))(P t (X t ) − P t −1 (X t ))T ]


= C t |t −1 − E [(K t v t )(K t v t )T ]
= C t |t −1 − K t S t K tT .

2.2.2 Le filtre d’information

Les formules précédentes mènent en parallèle le calcul de l’estimateur et celui de


sa covariance d’erreur.
Dans certains cas, seul le calcul de covariance est intéressant, en particulier si l’on
s’intéresse seulement ‘a la performance potentielle du filtre. Il n’est alors pas utile de
calculer la covariance de l’innovation et le gain du filtre, seules les valeurs successives
de C nous intéressent.
Soit I la matrice inverse de C , pour toutes les valeurs des indices ; I est appelée
matrice d’information, elle est homogéne à l’inverse d’une covariance.

37
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

La formule simple suivante donne l’évolution de I :

I t |t = I t |t −1 +G tT R t −1G t

avec :

T
I t |t −1 = (F t −1 I t−1
−1|t −1 F t −1 +Q t −1 )
−1

qui se réduit à :

I t |t −1 = (F tT−1 )−1 I t −1|t −1 F t−1


−1

dans le cas o‘u il n’y a pas de bruit d’état. Dans ce cas, on obtient une formule glo-
bale pour

passer de I t −1|t −1 à I t |t :

I t |t = (F tT−1 )−1 I t −1|t −1 F t−1 T


−1 +G t R t −1G t

Cette formule se simplifie encore si l’état est constant, soit si la matrice de transi-
tion F se réduit à l’identité :

I t |t = I t −1|t −1 +G tT R t −1G t

Le terme G tT R t −1G t est l’information apportée par une nouvelle mesure Y t à la


connaissance de X t , elle est d’autant plus grande que l’erreur de mesure est plus petite.

Cette formule, qui peut être vérifiée à partir du lemme d’inversion matricielle, ex-
prime le caractére additif de l’information.

Le cas d’une initialisation sans connaissance a priori se traduit en prenant I 0|0 =


(0)v,v .

La Figure 4.1 illustre le fonctionnement du filtre de Kalman : soit une série égale à
la somme d’une tendance linéaire et d’un bruit blanc . Cette série est représentée sur
la figure de gauche. La figure de droite représente l’évolution au cours du temps de
P t (Y t ) = G t P t (X t ) qui est dans ce cas une quantité scalaire (courbe continue en bleu),
avec un intervalle de confiance à ±1σ calculé à partir de sa variance G t C t |t G tT (courbes
pointillées en rouge).

38
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

F IGURE 2.1 – Filtre de Kalman

2.3 Modèle d’état pour un processus ARMA

Les processus ARMA peuvent être représentés par des modèles d’état. On donne ici
successivement la représentation par modèle d’état :

^ d’un processus AR causal,

^ d’un processus ARMA causal

2.3.1 Modéle d’état pour un AR(p)

Pour la cohérence avec les notations sur les modèles d’état, le processus AR(p)
considéré est noté Y .
Si Y est un processus AR(p), on a l’équation suivante :

Y t +1 = φ1 Y t + ... + φp Y t −p+1 + Z t +1 t ∈ Z

Soit le vecteur d’´etat X de taille p défini par :

X t = (Y t −p+1 , Y t −p+2 , ..., Y t )T t ∈ Z

alors on peut vérifier que Y t est un processus AR(p) causal si l’on prend pour ma-
trices (constantes) G et F :
G = [0 0...1] de dimension p

39
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

 
0 1 0 ... 0
 

 0 0 1 ... 0 

F = ...
 

 

 0 0 0 ... 0 

φp φp−1 ... φ1

de dimension (p, p)

2.3.2 Modèle d’état pour un ARMA(p,q)

Le processus AR M A(p, q) considéré est encore noté Y . Y satisfait l’équation sui-


vante :

Φ(B )Y t = Θ(B )Z t t ∈ Z

On définit le processus U t qui est un AR(p) causal par :Φ(B )Y t = Z t , soit :

Y t = Θ(B )U t

Alors si l’on pose r = max(p, q + 1), on a :

Y t = [θr −1 θr −2 ...θ0 ]X t

où X t est le vecteur de dimension r :

X t = (U t −r +1 ,U t −r +2 , ...,U t ]T t ∈Z

On peut alors étendre les ´equations précédentes en prenant : G = [θr −1 θr −2 ...θ0 ]


de dimension r

 
0 1 0 ... 0
 

 0 0 1 ... 0 

F = ...
 

 

 0 0 0 ... 0 

φr φr −1 ... φ1

de dimension (r, r ) et si l’on pose Vt = (0, ..., Z t +1 )T et Wt = 0.


On voit que :
— G contient des zéros si r − 1 > q, c’est-à-dire si p > q + 1,
— la derniére ligne de la matrice F contient des zéros si r > p, c’est-à-dire si q +1 >
p
Cette représentation d’un processus AR M A par modéle d’état conduit à prendre

40
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

un vecteur d’état de dimension r = max(p, q + 1)


Notons qu’il est possible d’avoir une représentation plus concise (de taille max(p, q)),
auquel cas W est non nul.
Cette représentation sera en particulier utilisée pour la prédiction, qui est une phase-
clé de l’identification des processus.
Nota : il est nécessaire pour cela d’appliquer un filtrage de Kalman aux observa-
tions Y t , t = 1, ..., n (voir initialisation et formules récursives ). X t étant lui-même sta-
tionnaire de moyenne nulle, d´efini pour t ∈ Z, mais observé à des instants t tels que
t = 1, ..., n (Y t = G X t ), la partie initialisation doit être traitée de la façon suivante :
prendre P 0 (X 0 ) = (0)2 (vecteur nul de taille 2) et C 0|0 = C ov(X t ) = E (X t X tT ) qui est
indépendant de t , car X t est stationnaire. Comme X t = (U t −r +1 , ...,U t )T où U t est le
processus AR(p) causal défini par Φ(B )U t = Z t , on obtient

C 0|0 (i , j ) = γU (|i − j |) pour i , j = 1...r.

2.4 Identification “robuste” d’un processus ARMA

On suppose ici que l’hypothèse sur l’ordre (p, q) a déjà été faite présente un schéma
général pour l’estimation robuste d’un processus ARMA causal, appelé méthode de
Box-Jenkins. Dans la suite, on décrit en détail l’estimation des coefficients de l’AR M A
lorsque p et q sont imposés.

2.4.1 Cas d’un MA : l’algorithme des innovations

Cet algorithme permet d’estimer les coefficients θ d’un processus MA. Il peut être
utilisé de plusieurs façons :
— cas d’un processus M A d’ordre connu : calcul des coefficients θ,
— cas d’un processus AR M A, qu’on cherche dans un premier temps à identifier à
un M A, comme d´ecrit au d´ebut de ce paragraphe. Dans ce cas, les coefficients
trouvés par l’algorithme des innovations sont les valeurs de ψ, puis on utilisera
l’algorithme suivant pour en déduire φ et θ.
Détermination des valeurs de θ (ou ψ)
Initialisation :

1 2
v̂ 0 = γe (0), θ̂1,1 = γe (1), v̂ 1 = γe (0) − θ̂1,1 v̂ 0
v̂ 0
Formules récursives pour m ≥ 2 :

41
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

1
θ̂m,m = γe (m)
v̂ 0
" #
1 k−1
θ̂m,m−k γe (m − k) θ̂m,m− j θ̂k,k− j v̂ j
X
= ∀k ∈ {1, ..., m − 1}
v̂ k j =0
m−1
2
v̂ m = γe (0) − θ̂m,m−
X
j v̂ j .
j =0

Les estimées de θ pour l’itération m sont données par le vecteur : θ̂m = (θ̂m,1 , ..., θ̂m,m )
et l’estimée de σ2Z pour l’itération m est donnée par : σ2Z = v̂ m
Cet algorithme doit fonctionner jusqu’à une valeur de m suffisante pour que les
coefficients estimés se ”stabilisent”.

2.4.2 L’algorithme de Durbin-Levinson


Les entrées et sorties sont décrites ci-dessous selonl’utilisation de l’algorithme.

γ(1)
φ1,1 =
γ(0)
v 1 = γ(0)(1 − φ21,1 )

Formules récursives pour m ≥ 2

" #
1 m−1
φm,m = γ(m) − φm−1, j γ(m − j )
X
v m−1 j =1
φm,k = φm−1,k − φm,m φm−1,m−k k = 1, ..., m − 1
= v m−1 1 − φ2m,m
¡ ¢
vm

Dans le processus d’identification, cet algorithme peut être utilisé à deux niveaux :
— Calcul de la fonction de corrélation partielle empirique : l’entrée est la fonction
de covariance empirique γe (.), la sortie est la séquence des φm,m ,
— Estimation du processus s’il est censé être un AR : c’est le même algorithme,
on utilise en plus la sortie v m comme estimateur de la variance de Z . Dans ce
cas, on trouve les coefficients de l’AR(p) dans la ligne n − p (par ordre croissant
d’indice). Les lignes suivantes (à partir de m = p + 1) contiennent les mêmes
coefficients pour les p premiers, puis des zéros jusqu’à m ; la valeur de v m reste
constante à partir de m = p.
On verra par la suite que, si l’on utilise une méthode alternative au filtre de Kalman
pour la prédiction à un pas, l’algorithme de Durbin Levinson est également utilisé à ce

42
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

niveau.

2.4.3 Algorithme de Yule Walker

Cet algorithme permet de calculer les mêmes coefficients φm,k que l’algorithme de
Durbin Levinson, mais de façon non récursive à chaque itération m.
Soient (à chaque itération m) :
— Φm le vecteur (à déterminer) composé des coefficients φm,k pour k = 1, ..., m,
— Γm la matrice (m, m) définie par Γm = [γe (i − j )]m
i , j =1
— γm le vecteur constitué des valeurs de la fonction de covariance de 1 à m : γm =
(γe (1), ..., γe (m))T
On a alors les relations suivantes :

Γm Φm = γm , (2.3)

v m = γe (0) − (Φm )T γm , (2.4)

On voit que la détermination des coefficients φm,k nécessite d’inverser une matrice
de dimension m. L’algorithme de Yule Walker est donc utilisé essentiellement pour
déterminer les coefficients d’un processus auto-régressif d’ordre p connu ; le vecteur
Φp contient précisément les coefficients cherchés.

2.4.4 Cas général d’un ARMA(p, q)

Un processus ARMA causal peut être écrit sous la forme d’un MA d’ordre infini :


ψ j zt − j
X
Xt =
j =0

avec ψ0 = 1

Xj ,p)
min(
ψj = θj + φi ψ j −i
i =0

où par convention ψ0 = 1. Les ψ j sont en nombre infini, mais sont liés aux coef-
ficients φ et θ, dont le nombre est p + q, donc la connaissance des p + q premiéres
valeurs de ψ (ψ1 à ψp+q ) entraîne en général celle de toutes les autres (ψp+q+1 à ψ∞ )
et surtout suffit pour calculer les coefficients φ et θ.
On suppose qu’on a déjà déterminé l’ordre M d’un processus M A d’ordre fini qui
modélise correctement le processus AR M A,mais cet ordre sera confirmé par l’algo-
rithme des innovations. On a généralement M ≥ p + q.

43
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

Pour la détermination des coefficients ψ̂ j et σ̂2 , on pourra utiliser l’algorithme des


’innovations’ présenté plus loin en calculant les θm,m−k suffisamment loin pour confir-
mer la valeur de l’ordre M qui satisfait les critéres suivants : pour m suffisamment
grand, les valeurs de θ̂m, j sont stables pour tout j ≤ M et petites pour j > M et les va-
leurs de vbm sont stables. On pose alors ψ̂ j = valeur stabilisée de θ̂m, j pour j = 1, ..., M
et σ̂2 = valeur stabilisée de v̂ m .
^
Il s’agit ensuite d’estimer φ et θ (p + q valeurs) à partir des ψ j pour j = 1...p + q
^
(voir ci-dessous). On peut montrer que Φ (le vecteur estimé des coefficients φ) satisfait
l’équation matricielle :
Ψ̂Φ̂ = ψ̂, (2.5)

où Ψ̂ est la matrice (p, p) dont les éléments sont :

Ψ̂(i , j ) = ψ̂q+i − j si q +i − j ≥ 0
Ψ̂(i , j ) = 0 si q + i − j < 0

et ψ̂ est le vecteur colonne (p) : ψ̂ = (ψ̂q+1 , ..., ψ̂q+p )T


Les valeurs de θ̂ sont ensuite calculées au moyen des formules :

Xj ,p)
min(
θ̂ j = ψ̂ j − φ̂i ψ̂ j −i , j = 1, ..., q.
i =1

2.4.5 Détails pour la prédiction

Dans le filtre de Kalman, le résidu est égal à l’innovation divisée par son écart-type :

vt
r=p
st

S est un scalaire positif, puisque la série est univariée.


Dans le schéma de la Figure 2.2, on utilise un filtrage de Kalman pour la prédiction. où
la prédiction se fait en calculant la fonction de covariance estimée γ(.) en appliquant
l’équation aux différences aux coefficients φ̂, θ̂, σ2Z et ψ̂, et en faisant la prédiction par
l’algorithme de Durbin Levinson ou celui de Yule-Walker ou encore l’algorithme des
innovations. Avec cette alternative, on peut donc utiliser pour la prédiction :
— Soit l’algorithme de Durbin Levinson (ou son équivalent non récursif l’algo-
rithme de Yule Walker), auquel cas la fonction d’entrée est γ̂(.), la sortie est l’en-
semble des coefficients φm,k et la variance de l’erreur de prédiction est donnée
par v m . La formule qui donne la valeur de X prédite à l’instant n + 1 à partir des
valeurs de Y1 à Yn est :

44
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

n
φn, j Yn+1− j .
X
Ŷn+1 =
j =1

Proposition 2.2 La vraisemblance L d’un processus AR M A gaussien, de moyenne nulle,


de paramétres (φ, θ, σ2Z ), la vraisemblance L est donnée par la formule suivante :

−1 X (Y j − Ŷ j )2
L(φ, θ, σ2Z ) = (2πσ2Z )−n/2 (r 0 ...r n−1 )−1/2 exp( )
2σ2Z j r j −1


Ŷ j +1 = Ŷ j +1 (φ, θ, σ2Z )

est la prédiction de Y j +1 sachant Y1 , ..., Y j , dans le modèle AR M A donné par les para-
métres (φ, θ, σ2Z ) , et les r j sont les variances des erreurs de prédiction, divisées par la
variance de Z :
1
r j = r j (φ, θ, σ2Z ) = v j (φ, θ, σ2Z )
2

v j (φ, θ, σ2Z ) = E (Y j +1 − Ŷ j +1 )2 .

La maximisation de L par rapport aux r paramètres conduit aux équations sui-


vantes :

1
σ̂2Z = s(φ̂, θ̂) (2.6)
n

X (Y j − Ŷ j )2
s(φ̂, θ̂) = (2.7)
j r j −1

où φ̂ et θ̂ sont les valeurs de φ et θ qui minimisent :

1 1 X n
l (φ, θ) = l og ( s(φ, θ) + l og (r j −1 ) (2.8)
n n j =1

où “l og ” désigne le logarithme népérien. La fonction l (φ, θ) est appelée vraisem-


blance réduite.

2.4.6 Identification paramétrique d’un processus ARMA


La méthode exposée précédemment (identification “robuste”) est basée entiére-
ment sur la fonction de covariance empirique. Lorsque les ordres du modéle ARMA (p
et q) sont supposés connus, l’estimation du processus consiste à trouver r = p + q + 1
param‘etres (φ, θ et σ2Z ). Une méthode directe d’estimation de ces paramétres consiste
à trouver l’ensemble des r paramétres les plus vraisemblables, compte tenu des obser-
vations (Y1 ...Yn ). Pour cela, la technique classique du maximum de vraisemblance est

45
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

applicable : calculer la vraisemblance L(likelihood) des observations (Y1 ...Yn ) en fonc-


tion des r paramétres ((φ, θ etσ2Z ) et trouver l’ensemble des paramétres qui maximise
L.

2.4.7 Validation d’un modéle : critéres de contrôle sur le résidu


Au cours de la prédiction d’un processus ARMA, le résidu est défini comme la série
temporelle :

Y t − Ŷ t (φ̂, θ̂)
Ŵt = q
r t −1 (φ̂, θ̂)

Lorsque le processus est estimé correctement, la série des résidus suit asympto-
tiquement à peu prés la même loi que le processus générateur Z t (bruit blanc faible
en général). On peut donc tester la qualité de l’estimation en observant la fonction de
corrélation empirique ρ̂(h) de Ŵt . Celle-ci vaut 1 pour h = 0, et pour h ≥ 1, elle est
comprise entre − 1.96
p et
n
1.9−6
p
n
avec uneprobabilité de 95%. C’est le test de “blancheur”
de Bartlett. Lorsque l’estimation du processus a été obtenue par maximisation de la
vraisemblance, les intervalles de confiance peuvent être affinés (c’est-à-dire diminués)
pour les h petits. L’application de ce critére permet de dire si le modéle ARMA choisi
(avec ses ordres et ses paramétres) modélise correctement le processus. Il est néces-
saire pour le calculer de mettre en oeuvre une prédiction du processus, comme décrit
dans l’approche générale.

2.4.8 Méthodes de sélection


On décrit ici des méthodes permettant de comparer des modéles ARMA entre eux :
— le critére AICC (Akaike Information Corrected Criterion) qui permet, par une
méthode de pénalisation, d’éviter le phénoméne d’overfitting,
— une méthode générale de sélection en “retenant” une partie des données pour
choisir parmi plusieurs modéles.
Prédiction linéaire à h pas
Les techniques de prédiction à un pas étudiées précédemment (par filtrage de Kal-
man, ou comme combinaison linéaire des Yi ou par l’algorithme des innovations)
s’étendent à la prédiction à h pas. Il s’agit de pr´edire la valeur de Yn+h à partir des
valeurs de Y1 , ..., Yn . Quand h augmente pour n fixé, Ŷn+h tend vers 0 et la variance de
l’erreur d’estimation tend vers σ2Y .

46
CHAPITRE 2. PRÉVISION PAR LES SÉRIES CHRONOLOGIQUES

F IGURE 2.2 – Schéma de prédiction par filtre de Kalman

47
CHAPITRE 3

APPLICATION SUR LA PRÉVISION DU COVID19

Les virus Corona ont été découverts dans les années 1960, et les premiers virus dé-
couverts étaient le virus de la bronchite infectieuse chez les poulets et deux virus de la
cavité nasale de patients humains atteints d’un rhume, appelés virus corona humain
229E et virus corona humain OC43. Depuis, d’autres éléments de cette famille ont été
identifiés, notamment : le SARS Coronavirus en 2003, le Human Coronavirus NL63 en
2004, le Human Coronavirus HKU1 en 2005, le Coronavirus Mers en 2012 et le New Co-
rona Virus 2019-nCoV, et la plupart de ces virus Il a un rôle à jouer dans une infection
respiratoire grave et même la mort.
Les coronavirus sont une large famille de virus qui peuvent provoquer des mala-
dies chez les animaux et les humains. Il est connu qu’un certain nombre de virus co-
rona chez l’homme provoquent des maladies respiratoires allant du rhume à des mala-
dies plus graves telles que le syndrome respiratoire du Moyen-Orient (MERS) et le syn-
drome respiratoire aigu sévère (SRAS). Le coronavirus récemment découvert provoque
la maladie Covid-19.Ce virus est apparu dans la ville chinoise de Wuhan en décembre
2019 et se caractérise par sa propagation rapide parmi les personnes .Les gens peuvent
attraper l’infection Covid-19 par d’autres personnes infectées par le virus. La maladie
se transmet principalement d’une personne à l’autre par de petites gouttelettes qu’une
personne atteinte de Covid-19 sécrète par le nez ou la bouche lorsqu’elle tousse, éter-
nue ou parle. Ces gouttelettes ont un poids relativement lourd, car elles ne se déplacent
pas vers un endroit lointain, mais tombent plutôt rapidement au sol. Les gens peuvent
contracter la maladie Covid-19 s’ils respirent ces gouttelettes d’une personne infectée
par le virus.
Le nom anglais de la maladie est dérivé comme suit : «CO» correspond aux deux
premières lettres du mot «CORONA»( Le nom fait référence à l’apparence distinctive
d’une couronne) . Quant aux lettres «VI, elles sont dérivées des deux premières lettres
du mot« virus »et la lettre« D »est la première lettre du mot« diseas », selon un rapport.

48
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

Publié par l’UNICEF des Nations Unies.

3.1 Analyse de COVID19 en algérie


La propagation d’un virus COVID 19 en Algérie, comme dans le reste des pays, où
l’Algérie a enregistré le jour 26/02/2020. Pour assister à sa propagation rapide dans
l’État de Blida, puis le reste dans les États du pays d’origine jusqu’à ce que les hôpitaux
deviennent incapables d’accueillir tous les patients, nous allons donc aborder une pré-
diction sur le nombre d’infections.

3.1.1 La prédiction sur le nombre d’infections par COVID19

Les données sont téléchargées depuis le site officiel de l’Organisation mondiale de


la santé (OMS) du 01/01/2020 au 16/09/2020
statistique discréptive

TABLE 3.1 – Discription de la séries des cas d’infections en algérie


Min 1st Qu Median Mean 3rd Qu Max
0.0 1.5 129.0 191.1 330.5 675

F IGURE 3.1 – Histogramme des observations des infectés

La série temporelle
obse : la série chronologique représente le nombre d’infections par COVID19
Analyse graphique de la série "cas d’infections par COVID19"
A partir des données de la série,et avec la commandes suivante : plot.ts(obse).
Nous obtenons le graphique suivant :

49
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

F IGURE 3.2 – Représentation graphique de la série cas de d’infection par COVID19

Le corrélogramme simple :

F IGURE 3.3 – Représentation graphique d’autocorrélation de la série cas de d’infection


par COVID19

Et sa corrélogramme partielle :

50
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

F IGURE 3.4 – Représentation graphique d’autocorrélation partielle de la série obse

La visualisation des corrélogrammes simple et paritelle montre non stationnarité,l’ACF


ne coupe pas.

On utilise le test de racine unitaire (test ADF)pour confirmer non stastionnarité :

librarary(tseries)

adf.test(obse)

Augmented Dickey-Fuller Test

data : obse

Dickey-Fuller = -1.2053, Lag order = 6, p-value = 0.904

p-value = 0.904Â 0.05 donc la série n’est pas stqtionnaire (admet une racine uni-
taire)

On peut qussi utiliser la foction decompoce pour extraire les composantes d’une
série temporelle

d=decompose(obse,type = "m")

plot(d)

51
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

F IGURE 3.5 – les composantes d’une série temporelle

Transformation de la série
On utilse lq commande ndiffs pour savoir l’ordre de différenciation aui éliminé la
tandance et la saisonnalité.
library(forecast)
ndiffs(obse)
[1] 1
Alors l’ordre de différenciation est 1.
d1=diff(obse,differences = 1)
d1
plot.ts(d1)

F IGURE 3.6 – Représentation graphique de la série obse différenciation

On applique l’ensmble des test de la stationnarité on obtien :

52
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

library(tseries)

— kpss.test(d1)

KPSS Test for Level Stationarity

data : d1

KPSS Level = 0.22829, Truncation lag parameter = 5, p-value = 0.1

— PP.test(d1)

Phillips-Perron Unit Root Test

data : d1

Dickey-Fuller = -21.866, Truncation lag parameter = 5, p-value = 0.01

— adf.test(d1)

Augmented Dickey-Fuller Test

data : d1

Dickey-Fuller = -4.7187, Lag order = 6, p-value = 0.01

D’aprés les résultqts des trois test on résume que la série différencier est station-
naire

Identification

les graphes de autorrélation simple et parciel de la série différencier sont :

acf(d1)

F IGURE 3.7 – Autorrélation simple de la série obse différencier

pacf(d1)

53
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

F IGURE 3.8 – Autorrélation partielle de la série différencier

nous voyons que ACF est coupé aprés décalage 1 et que PACF est coupé aprés dé-
calage 1.
Nous proposons donc les modéles : ARIMA(1,1,1),ARIMA(2,1,1),ARIMA(1,1,2)

3.2 Test de tendance Mann-Kendall dans R


Un test de tendance de Mann-Kendall est utilisé pour déterminer si une tendance
existe ou non dans les données de séries chronologiques. Il s’agit d’un test non para-
métrique, ce qui signifie qu’aucune hypothèse sous-jacente n’est faite sur la normalité
des données.
Les hypothèses du test sont les suivantes :
H 0 (hypothèse nulle) : aucune tendance n’est présente dans les données.
H A (hypothèse alternative) : une tendance est présente dans les données. (Cela
peut être une tendance positive ou négative)
Si la valeur p du test est inférieure à un certain niveau de signification (les choix
courants sont 0,10, 0,05 et 0,01), alors il existe des preuves statistiquement significa-
tives qu’une tendance est présente dans les données de la série chronologique.
Pour effectuer un test de tendance Mann-Kendall dans R, nous utiliserons la fonc-
tion MannKendall () de la bibliothèque Kendall, qui utilise la syntaxe suivante :
MannKendall (x)
On obtient les résultats suivantes :
MannKendall(x)
t au = 0.724 2 − si d ed pv al ue = 2.22e − 16
La statistique du test est de 0, 724 et la valeur p bilatérale correspondante est de
2.22e − 16. Parce que cette p−valeur est inférieure à 0, 05, nous rejetterons l’hypothèse

54
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

nulle du test et conclurons qu’une tendance est présente dans les données.
Pour visualiser la tendance, nous pouvons créer un graphique de série chronolo-
gique des précipitations annuelles par année et ajouter une ligne lisse pour représenter
la tendance :
#Plot the time series data
#Add a smooth line to visualize the trend
lines(lowess(time(x),x), col=’blue’)

F IGURE 3.9 – Analyse de la tendance de la séries des infectés

Notez que nous pouvons également effectuer un test de tendance Mann-Kendall


désaisonnalisé pour tenir compte de toute saisonnalité dans les données à l’aide de la
commande
SeasonalMannKendall (x) :

3.3 Prévision par la méthode de Box-Jenkins

3.3.1 Identification du modèle

3.3.1.1 Estimation des paramétres

On utilise la commande auto.arima pour construire le meilleur modéle qui repré-


sente la série
library(forecast)
modobse=auto.arima(obse,trace = TRUE,test = "kpss",ic="aic")
on trouve

55
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

TABLE 3.2 – Résultats d’ajustements de la série des cas d’infections par COVID19
Modèle AIC
ARIMA(2,1,2)(1,0,1)[7] with drift 2338.37
ARIMA(1,1,0)(1,0,0)[7] with drift 2339.681
ARIMA(0,1,0) with drift 2361
ARIMA(0,1,0) 2359.346
ARIMA(0,1,1) with drift 2337.403
ARIMA(0,1,1)(1,0,0)[7] with drift 2344.215
ARIMA(0,1,1)(1,0,1)[7] with drift 2345.213
ARIMA(1,1,1) with drift 2334.554
ARIMA(1,1,1)(1,0,0)[7] with drift 2341.662
ARIMA(1,1,1)(0,0,1)[7] with drift 2334.757
ARIMA(1,1,1)(1,0,1)[7] with drift 2342.913
ARIMA(1,1,0) with drift 2332.714
ARIMA(1,1,2) 2323.526
ARIMA(1,1,2)(1,0,0)[7] 2332.651
ARIMA(1,1,2)(1,0,1)[7] 2334.587
ARIMA(1,1,1) 2333.235
ARIMA(0,1,2) 2329.716
ARIMA(1,1,1) 2333.235

56
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

TABLE 3.3 – Résultats d’ajustements de la série des cas d’infections par COVID19
Modèles AIC
ARIMA(2,1,2)(1,0,1)[7] with drift 2338.37
ARIMA(1,1,0)(1,0,0)[7] with drift 2339.681
ARIMA(0,1,0) with drift 2361
ARIMA(0,1,0) 2359.346
ARIMA(0,1,1) with drift 2337.403
ARIMA(0,1,1)(1,0,0)[7] with drift 2344.215
ARIMA(0,1,1)(1,0,1)[7] with drift 2345.213
ARIMA(1,1,1) with drift 2334.554
ARIMA(1,1,1)(1,0,0)[7] with drift 2341.662
ARIMA(1,1,1)(0,0,1)[7] with drift 2334.757
ARIMA(1,1,1)(1,0,1)[7] with drift 2342.913
ARIMA(1,1,0) with drift 2332.714
ARIMA(1,1,0)(0,0,1)[7] with drift 2332.79
ARIMA(1,1,0)(1,0,1)[7] with drift 2340.915
ARIMA(2,1,0) with drift 2335.486
ARIMA(2,1,1) with drift 2327.738
ARIMA(2,1,1)(1,0,0)[7] with drift 2336.751
ARIMA(2,1,1)(0,0,1)[7] with drift 2329.602
ARIMA(2,1,2) with drift 2327.4
ARIMA(2,1,2)(1,0,0)[7] with drift 2336.486
ARIMA(2,1,2)(0,0,1)[7] with drift 2329.335
ARIMA(1,1,2) with drift 2325.471
ARIMA(1,1,2)(1,0,0)[7] with drift 2334.593
ARIMA(1,1,2) 2323.526
ARIMA(1,1,2)(1,0,0)[7] 2332.651
ARIMA(1,1,2) 2323.526
ARIMA(1,1,2)(1,0,0)[7] 2332.651
ARIMA(1,1,2)(1,0,1)[7] 2334.587
ARIMA(1,1,1) 2333.235

Méilleur modèles est : ARIMA(1,1,2)


La commande summary(modobse)

TABLE 3.4 – Estimation des coefficients du modèle d’ajustement


ar1 ma1 ma2
coef 0.9429 -1.3004 0.3992
s.e 0.0353 0.0664 0.0553
AIC 2329.45

3.3.2 Validation
Nous avons diagnostiqué notre modéle à partir des tests suivants pour montrer que
le modéle choisis est valide.

57
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

— Test ADF
adf.test(modobse.residuals)
Augmented Dickey-Fuller Test
data : modobse$residuals
Dickey-Fuller = -6.2286, Lag order = 6, p-value = 0.01
— Test de Box-pierce
Box.test(modobse$residuals)
Box-Pierce test
data : modobse$residuals
X-squared = 0.14209, df = 1, p-value = 0.7062
— test de la stationnarité graphiquement

3.3.3 Prévision

D’aprés le modèle choisis précédent on peut prédire des résultqts pour les pro-
chaines jours
On utilise l’énsemble des commandes suivantes :
nse=auto.arima(obse)
ff=forecast(nse,h=10)
summary(ff)

TABLE 3.5 – Résultats du prévision par la méthode de Box-Jenkins


jour prévision Lo 80 Hi 80 Lo 95 Hi 95
256 233.6638 203.5801 263.7476 187.65467 279.6730
257 229.4237 193.6658 265.1816 174.73676 284.1107
258 225.4259 183.8568 266.9950 161.85144 289.0004
259 221.6565 174.1675 269.1454 149.02842 294.2845
260 218.1023 164.6094 271.5953 136.29198 299.9127
261 214.7513 155.1911 274.3115 123.66179 305.8408
262 211.5917 145.9188 277.2645 111.15366 312.0297
263 208.6125 136.7970 280.4281 98.78018 318.4449
264 205.8036 127.8287 283.7785 86.55130 325.0559
265 203.1552 119.0155 287.2948 74.47472 331.8356

— Graphe représente la prévision avec l’intervalle de confiance : avec la commande


plot(ff)

58
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

F IGURE 3.10 – Représentation graphique de la prévision par Box-Jenkins

3.4 Prévision par filtre de Kalman


Nous utilisons le package (TSPred) pour la prévision par filtre de Kalman
library(TSPred)
La repésentation graphique de la série ,nous utilisons la commande suivente :
plot(obse,type=’l’,lwd=1,xlim=c(0,256),ylim=c(0,800),xlab="Time",ylab="ARIMA")
Nous obtenons le graphe suivant :

F IGURE 3.11 – Représentation graphique des observations

nous utilisons les commandes suivantes :


fPolyRKF= fittestPolyRKF(obse,h=10)
fs<-KFAS : :KFS(fPolyRKF, model,filtering=c("state","mean"),smoothing=c("state","mean"))

59
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

Série chronologique filtrée par Kalman


f<-fitted(fs, filtered=TRUE)
s<-lines(f,col=’red’,lty=1,lwd=1)
Nous obtenons

F IGURE 3.12 – Représentation graphique des observations

#Série chronologique lissée par Kalman


s=fitted(fs)
lines(s,col=’green’,lty=1,lwd=1)
Nous obtenons :

F IGURE 3.13 – Série chronologique ajustée par Filtre de Kalman

Nous utilisons les commandes suivantes pour la prévision

60
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

pred<-fPolyRKFpredmean
pred
Nous obtenons :
Time Series :
Start = 256
End = 265

TABLE 3.6 – Résultats du prévision pour dix jours avec les bornes de confiances
date jour La prévision Borne inférieure Borne supérieure
17/09/2020 256 231.4074 189.066601 273.7481
18/09/2020 257 224.6786 163.745674 285.6114
19/09/2020 258 217.8135 141.873512 293.7536
20/09/2020 259 210.8123 121.583139 300.0415
21/09/2020 260 203.6749 102.162255 305.1876
22/09/2020 261 196.4014 83.250236 309.5525
23/09/2020 262 188.9916 64.635231 313.3480
24/09/2020 263 181.4456 46.180518 316.7107
25/09/2020 264 173.7635 27.791877 319.7351
26/09/2020 265 165.9451 9.401146 322.4891

3.4.1 Repréresntation graphique de la prévision

lines(ts(pred,start=256),lwd=1,col=’blue’)
lines(ts(fPolyRKFpredupper,start=256),lwd=1,col=’light blue’)
lines(ts(fPolyRKFpredlower,start=256),lwd=1,col=’light blue’)

F IGURE 3.14 – Représentation graphique de la prévision par filtre de Kalman

61
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

3.5 Prévision du nombre de décés dus à le virus COVID19


en Algérie

3.5.1 Résultats de la Statistique descriptive

TABLE 3.7 – Résultats discriptive des décés à cause de COVID-19 en Algérie


Min 1st Qu Median Mean 3rd Qu Max
0.0 0.0 7.0 6.4 9.0 42.0

F IGURE 3.15 – Histogramme de la série des décés en Algérie par COVID-19

3.5.2 Analyse de la série temporelle

y : la série chronologique des décés par COVID19

Analyse graphique de la série "cas des décés par COVID19"

A partir des données de la série,et avec la commandes suivante : plot.ts(y).

Nous obtenons le graphique suivant :

62
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

F IGURE 3.16 – Représentation graphique de la série des décés en Algérie par COVID-19

Le corrélogramme simple :

F IGURE 3.17 – Autocorrélation simple ACF de la série des décés en Algérie par COVID-
19

Le corrélogramme parctielle :

63
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

F IGURE 3.18 – Autocorrélation partielle PACF de la série des décés en Algérie par
COVID-19

On peut qussi utiliser la foction decompoce pour extraire les composantes d’une
série temporelle :
dec=decompose(y)
plot(dec)

F IGURE 3.19 – Décomposition de la série des décés en Algérie par COVID-19

Transformation de la série

64
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

On utilse la commande ndiffs pour savoir l’ordre de différenciation aui éliminé la


tendance et la saisonnalité.
library(forecast)
ndiffs(Y)
[1] 1
df=diff(Y,differences = 1)
df
La représentqtion graphique est

F IGURE 3.20 – Représentation graphique de la série différencier

On applique l’ensemble des test de la stationnarité on obtient :


library(tseries)
— kpss.test(df)

KPSS Test for Level Stationarity


data : df
KPSS Level = 0.027417, Truncation lag parameter = 5, p-value = 0.1
— PP.test(df )
Phillips-Perron Unit Root Test
data : df
Dickey-Fuller = -32.248, Truncation lag parameter = 5, p-value = 0.01
— adf.test(df )
Augmented Dickey-Fuller Test
data : df
Dickey-Fuller = -6.6778, Lag order = 6, p-value = 0.01

65
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

D’aprés les résultqts des trois test on résume que la série différencier est station-
naire
Identification
les graphes de autorrélation simple et partielle de la série différencier sont :
acf(df)

F IGURE 3.21 – Graphe de autorrélation simple de la série y différencier

pacf(df )

F IGURE 3.22 – Graphe de autorrélation partielle de la série y différencier

Nous voyons que ACF est coupé aprés décalage 1 et que PACF est coupé aprés dé-
calage 2.
Nous proposons donc les modéles : ARIMA(2,1,1)

66
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

3.5.3 Application de la méthode de Box-Jenkins


3.5.3.1 Estimation des paramétres

On utilise la commande auto.arima pour construire le meilleur modéle


qui représente la série
library(forecast)
ym=auto.arima(Y,trace = TRUE,test = "kpss",ic="aic")
on trouve

TABLE 3.8 – Résultats d’ajustement de la série des décés par un modèle temporelle
Modèle AIC
ARIMA(2,1,2)(1,0,1)[7] with drift : 1322.827
ARIMA(0,1,0) with drift : 1387.721
ARIMA(1,1,0)(1,0,0)[7] with drift : 1331.33
ARIMA(0,1,1)(0,0,1)[7] with drift : 1308.11
ARIMA(0,1,0) : 1385.762
ARIMA(0̊,1,1) with drift : 1306.184
ARIMA(0,1,1)(1,0,0)[7] with drift : 1315.199
ARIMA(0,1,1)(1,0,1)[7] with drift : 1317.161
ARIMA(1,1,1) with drift : 1307.127
ARIMA(0,1,2) with drift : 1306.047
ARIMA(0,1,2)(1,0,0)[7] with drift : 1315.123
ARIMA(0,1,2)(0,0,1)[7] with drift : 1308.031
ARIMA(0,1,2)(1,0,1)[7] with drift : 1316.927
ARIMA(1,1,2) with drift : 1309.047
ARIMA(0,1,3) with drift : 1308.045
ARIMA(1,1,3) with drift : 1311.045
ARIMA(0,1,2) : 1304.222
ARIMA(0,1,2)(1,0,0)[7] : 1313.3
ARIMA(0,1,2)(0,0,1)[7] : 1306.203
ARIMA(0,1,2)(1,0,1)[7] : 1315.056
ARIMA(0,1,1) : 1304.384
ARIMA(1,1,2) : 1307.223
ARIMA(0,1,3) : 1306.22
ARIMA(1,1,1) : 1305.307
ARIMA(1,1,3) : 1309.22

ARIMA(0,1,2) : 1307.26
Best model : ARIMA(0,1,2)
On utilise la commande
summary(ym)
on trouve
Series : y
ARIMA(0,1,2)

67
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

Coefficients :

ma1 ma2
-0.6262 0.0908
s.e 0.0624 0.0609

3.5.3.2 Validation

Nous avons diagnostiqué notre modéle à partir des tests suivants pour montrer que
le modéle choisis est valide

— Test ADF

library(tseries)

adf.test(ym$residuals)

Augmented Dickey-Fuller Test

data : ym$residuals

Dickey-Fuller = -6.2286, Lag order = 6, p-value = 0.01

— Test de Box-pierce

Box.test(ym$residuals)

Box-Pierce test

data : ym$residuals

X-squared = 0.002659, df = 1, p-value = 0.9589

3.5.3.3 Prévision

D’aprés le modéle choisis précedent on peut prédire des résultats pour les pro-
chaines jours

On utilise l’énsemble des commandes suivantes :

mm=auto.arima(y)

ab=forecast(mm,h=10)

summary(ab)

on trouve

plot(ab)

68
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

TABLE 3.9 – Résultats de la prévision des décés par la méthode de Box-Jenkins


jours prévision Lo 80 Hi 80 Lo 95 Hi 95
256 9.210569 5.180428 13.24071 3.046999479 15.37414
257 9.625807 5.323307 13.92831 3.045701375 16.20591
258 9.625807 4.933470 14.31814 2.449496747 16.80212
259 9.625807 4.573624 14.67799 1.899160402 17.35245
260 9.625807 4.237758 15.01386 1.385497149 17.86612
261 9.625807 3.921633 15.32998 0.902026558 18.34959
262 9.625807 3.622132 15.62948 0.443977990 18.80764
263 9.625807 3.336877 15.91474 0.007718691 19.24389
264 9.625807 3.064011 16.18760 -0.409593413 19.66121
265 9.625807 2.802048 16.44957 -0.810231529 20.06185

F IGURE 3.23 – Repésontation graphique de la prévition des décés

3.5.4 La prévision par filter de Kalman

Nous utilisons le package (TSPred) pour la prévision par filter de Kalman

library(TSPred)

fArimaKF<-fittestArimaKF(y,h=10)

La repésentation graphique de la série ,nous utilisons la commande suivente :

plot(y,type=’l’,lwd=1,xlim=c(0,300),ylim=c(0,60),xlab="Time",ylab="ARIMAKF")

Nous obtenons

69
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

F IGURE 3.24 – Repésontation graphique de la série des décés

nous utilisons les commandes suivantes :


fs<-KFAS : :KFS(fArimaKFmodel,filtering=c("state","mean"),smoothing=c("state","mean"))
f<-fitted(fs, filtered = TRUE)
lines(f,col=’red’,lty=1,lwd=1)
Nous obtenons

F IGURE 3.25 – Série chronologique filtrée par Kalman

Série chronologique lissée par Kalman


s<- fitted(fs)
lines(s,col=’green’,lty=1,lwd=1)

70
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

F IGURE 3.26 – Série chronologique ajustée par Kalman

Nous utilisons les commandes suivantes pour la prévision


pr=fArimaKF$pred$mean
pr
Nous obtenons : L’interval de confiance

TABLE 3.10 – Résultats de la prévision des décés par la méthode de Filtre de Kalman
jour Prévision
256 9.277891
257 9.689314
258 9.566864
259 9.603308
260 9.592461
261 9.595690
262 9.594729
263 9.595015
264 9.594930
265 9.594955

fArimaKF$pred$lower
fArimaKF$pred$uppe

71
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

TABLE 3.11 – Bornes de confiances de la prévision des décés par la méthode de Filtre
de Kalman
jour Borne inférieure Borne supérieure
256 4.1224544 14.43333
257 4.1771352 15.20149
258 3.5354980 15.59823
259 3.1482466 16.05837
260 2.7249391 16.45998
261 2.3433380 16.84804
262 1.9757686 17.21369
263 1.6266345 17.56339
264 1.2917239 17.89814
265 0.9699397 18.21997

TABLE 3.12 – Résultats de la prévision des décés par la méthode de Filtre de Kalman
jour Prévision Borne inférieure Borne supérieure
256 9.277891 4.1224544 14.43333
257 9.689314 4.1771352 15.20149
258 9.566864 3.5354980 15.59823
259 9.603308 3.1482466 16.05837
260 9.592461 2.7249391 16.45998
261 9.595690 2.3433380 16.84804
262 9.594729 1.9757686 17.21369
263 9.595015 1.6266345 17.56339
264 9.594930 1.2917239 17.89814
265 9.594955 0.9699397 18.21997

3.5.4.1 Repésentation graphique .

lines(ts(pred$mean,start=256),lwd=2,col=’blue’)

lines(ts(pred$upper,start=256),lwd=2,col=’light blue’)

lines(ts(pred$lower,start=256),lwd=2,col=’light blue’)

72
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

F IGURE 3.27 – Repésentation graphique de prévision des décés par filtre de Kalman

3.5.5 Comparaison entre prévision par la méthode Box et filtre de


Kalman

TABLE 3.13 – Comparaison de la prévision des infections par les deux


méthodes avec le bilan réel
TABLE 3.13 – Comparaison de la prévision des décés par les deux méthodes avec le
bilan réel
Date Jour Box Kalman Réelle
17/09/2020 256 233.6638 231.4074 228
18/09/2020 257 229.4237 224.6786 219
19/09/2020 258 225.4259 217.8135 210
20/09/2020 259 221.6565 210.8123 203
21/09/2020 260 218.1023 203.6749 197
22/09/2020 261 214.7513 196.4014 191
23/09/2020 262 211.5917 188.9916 186
24/09/2020 263 208.6125 181.4456 179
25/09/2020 264 205.8036 173.7635 175
26/09/2020 265 203.1552 165.9451

73
CHAPITRE 3. APPLICATION SUR LA PRÉVISION DU COVID19

TABLE 3.14 – Comparaison de la prévision des décés par les deux méthodes avec le
bilan réel
Date Jour Box Kalman Réelle
17/09/2020 256 9.21056
233.6638 231.4074
9.277891 9
228
18/09/2020 257 9.625807
229.4237 9.689314
224.6786 6
219
19/09/2020 258 9.625807
225.4259 217.8135
9.566864 6
210
20/09/2020 259 9.625807
221.6565 9.603308
210.8123 203
7
21/09/2020 260 218.1023
9.625807 9.592461
203.6749 7
197
22/09/2020 261 9.625807
214.7513 196.4014
9.595690 10
191
23/09/2020 262 9.625807
211.5917 188.9916
9.595015 186
9
24/09/2020 263 9.625807
208.6125 181.4456
9.594930 5
25/09/2020 264 9.625807
205.8036 173.7635
9.594930 4
26/09/2020 265 9.625807
203.1552 9.594955
165.9451 4

On note à partir de ces résultats que filtre de Kalman est plus proche de la réalité.
Donc filtre de Kalman est meilleure que Box et Jenkins.Les prédictions de Kalman
peuvent être utilisées pour prendre les meilleures décisions pour lutter contre la pro-
pagation du virus.

74
CONCLUSION GÉNÉRALE

L’objective de ce travail a été d’introduire l’essentiel de la modélisation des séries


chronologique. Dans la première partie du ce travail , on a effectué une revue des prin-
cipale notions de base concernant les séries chronologiques à une variable , cela a per-
mis d’introduire , entre autres ,la famille des processus ARIMA qui sont des modèles
,mathématiques efficaces pour modéliser des phénomènes temporelles .
Ainsi que la procédure de sélection de modèles de Box-Jenkins et filtre de Kalman
qui nous permet de modéliser et prédire le comportement d’un caractère statistique
dans horizon. Le logiciel R facilite de manipuler et traiter le modèle temporelle pour
choisi le meilleur modèle d’ajustement, et donne les valeurs des prévision numérique-
ment et visuellement.

75
BIBLIOGRAPHIE

[1] Akaike, H. (1969). Fitting autoregressive models for prediction. Annals of the ins-
titute of Statistical Mathematics, 21(1), 243-247.

[2] Bowerman, B. L., & O’Connell, R. T. (1979). Time series and forecasting. North
Scituate, MA : Duxbury Press.

[3] Box, G. E., Jenkins, G. M., Reinsel, G. C., & Ljung, G. M. (2015). Time series analy-
sis : forecasting and control. John Wiley & Sons.

[4] Corinne, P. (2005). Séries chronologiques : Quelques éléments du cours. Paris.

[5] Cheung, Y. W., & Lai, K. S. (1995). Lag order and critical values of the augmen-
ted Dickey&Fuller test. Journal of Business & Economic Statistics, 13(3), 277-
280.Eshel, G. (2003). The yule walker equations for the AR coefficients. Internet
resource, 2, 68-73

[6] Mechgoug, R. (2013). La Prédiction des Séries Temporelles utilisant les Para-
digmes de Soft Computing. Algérie.Melard, G. (1979). Modèles ARIMA pour des
séries chronologiques non homogènes. Statistique et analyse des données, 4(2),
41-50.

[7] MCLEOD, A. Ian. Diagnostic checking of periodic autoregression models with ap-
plication. Journal of Time Series Analysis, 1994, vol. 15, no 2, p. 221-233.

[8] Phillips, P. C., & Perron, P. (1988). Testing for a unit root in time series regression.
Biometrika, 75(2), 335-346.

[9] Woodward, W. A. et Gray, H. L. (1996). On the relationship between the S-array


, and the box-jenkins method of ARMA model identi.ction, journal of Américan
Statistical Association, vol 76, n 375

[10] Yves, A. (2011). Series temporelles avec RMethodes et cas, Springer-Verlang,


France.

76

Vous aimerez peut-être aussi