DLNM
DLNM
Document final
Avec le soutien de
Contexte de programmation et de réalisation
Ce rapport a été réalisé dans le cadre du programme d’activité AQUAREF pour l’année 2017.
Auteur (s) :
Soudant Dominique
Ifremer centre de Nantes
[email protected]
Isabelle Auby
Ifremer, laboratoire environnement ressource Arcachon
[email protected]
Anne Daniel
Ifremer, laboratoire DYNECO/PELAGOS
[email protected]
Relectrice :
Nadine Neaud-Masson
Ifremer centre de Nantes
Nadine. [email protected]
Les correspondants
Référence du document : Dominique Soudant, Isabelle Auby, Anne Daniel – Incertitudes des
méthodes d’évaluation « eaux littorales » : utilisation de modèles linéaires dynamiques pour
l’évaluation des incertitudes des paramètres hydrologiques – Rapport AQUAREF 2017 – 71 p.
Page 4 sur 71
SOMMAIRE
1. INTRODUCTION..............................................................................7
2. DONNÉES ET MÉTHODES...................................................................7
2.1 Réseau, lieux, période, prélèvement, paramètres et mesures......................7
2.2 Méthode d’analyse des séries...........................................................10
3. RÉSULTATS..................................................................................11
3.1 Température...............................................................................11
3.2 Turbidité....................................................................................16
3.3 Matières en suspension...................................................................23
3.4 Concentration en oxygène dissous......................................................26
3.5 Concentration en (nitrate+nitrite)......................................................32
3.6 Concentration en ammonium............................................................35
3.7 Concentration en phosphate.............................................................41
3.8 Concentration en silicate................................................................46
3.9 Synthèse concernant les variances d’observation....................................53
4. DISCUSSION.................................................................................53
5. CONCLUSION................................................................................59
6. BIBLIOGRAPHIE.............................................................................60
Page 5 sur 71
INCERTITUDES DES MÉTHODES D’ÉVALUATION « EAUX LITTORALES » : UTILISATION DE MODÈLES LINÉAIRES
DYNAMIQUES POUR L’ÉVALUATION DES INCERTITUDES DES PARAMÈTRES HYDROLOGIQUES
SOUDANT D., AUBY I., DANIEL A.
RESUMÉ
L’incertitude associée à une mesure a pour origine d’une part la variabilité
environnementale et d’autre part l’ensemble du processus d’acquisition depuis le
prélèvement jusqu’à la saisie de la donnée dans une base. L’estimation de l’ensemble de
cette variabilité est un exercice complexe à réaliser dans le cadre d’un plan d’expérience.
En revanche, les longues séries temporelles de données présentent la caractéristique
d’intégrer toutes les variabilités. L’analyse de ces séries en termes de signal et bruit doit
permettre de quantifier l’amplitude des incertitudes. Toutefois, les séries temporelles
d’observation présentent un ensemble de caractéristiques les rendant difficiles à analyser.
Les modèles linaires dynamiques constituent une approche adaptée à l’analyse de ces
données particulières en faisant l’hypothèse de paramètres variables dans le temps.
L’objet du présent travail consiste à estimer les variances liées au processus d’observation
à l’aide de modèles linéaires dynamiques. Les données étudiées sont les paramètres
physico-chimiques (température, turbidité, matières en suspension, oxygène dissous,
nitrate+nitrite, ammonium, phosphate, silicate) enregistrés sur les lieux de surveillance
REPHY « Arcachon-Bouée- 7 » et « Teychan bis ».
Les résultats montrent pour la température qu’en dépit d’une mesure très maîtrisée, la
variance d’observation, est de l’ordre de 1 °C². Le signal reste néanmoins très peu bruité
comme pour la concentration en oxygène dissous pour laquelle la variance d’observation
est de 0.05 (mg/L)². Pour les autres paramètres, les contributions non-structurelles aux
bornes des intervalles de confiance à 90 % des observations en pourcentage de la médiane
varient de -20 % à -60 % pour la borne inférieure et de 60 % à 500 % pour la borne
supérieure. Les contributions les plus réduites sont le fait des mesures réalisées au lieu
« Teychan bis » pour lequel les séries sont plus courtes, la fréquence d’échantillonnage
variable dans le temps et le plan déséquilibré sur les saisons. Au regard de la complexité
des écosystèmes marins et les interdépendances multiples des phénomènes en jeu, la
construction d’un modèle considérant conjointement plusieurs paramètres et leurs
interactions apparaît incontournable.
Mots clés (thématique et géographique) :
Incertitude, température, turbidité, matières en suspension, oxygène dissous, nutriments, modèle
linaire dynamique, bassin d’Arcachon, REPHY.
Page 6 sur 71
1. INTRODUCTION
Dans le prolongement du précédent travail (Soudant et al., 2016), la question abordée est
celle de l’estimation de l’incertitude des mesures réalisées dans le milieu marin à partir
des séries temporelles d’observation. L’incertitude de mesure est définie ici comme la
variabilité attachée à l’ensemble du processus d’acquisition d’une donnée depuis
l’échantillonnage jusqu’à la saisie, y compris la variabilité environnementale. L’approche
mise en œuvre est la suivante. D’une part, dans le cadre de l’analyse structurelle d’une
série temporelle à l’aide d’un modèle dynamique linéaire (Dynamic Linear Model, DLM),
une variance dite d’observation est estimée. C’est ce qui n’est pas expliqué par le modèle
et qui recouvre en particulier l’incertitude de mesure. D’autre part, les séries temporelles
peuvent être affectées par des changements de niveau et des valeurs exceptionnelles (i.e.
outliers) liés à des événements environnementaux ou aux modalités d’observation (e.g.
changement de méthodes, d’analystes). Il s’ensuit que la quantification de l’incertitude de
mesure à travers la variance d’observation est d’autant plus pertinente que ces
événements seront identifiés et pris en compte dans le modèle. Les DLM permettent de
suggérer et traiter de manière appropriée ces chocs structurels et valeurs exceptionnelles.
Ces suggestions doivent être infirmées ou confirmées par les experts thématiques et les
analystes. Ainsi notre proposition consiste à ajuster des DLM à des séries temporelles
environnementales marines et à considérer les variances d’observations estimées de
manière à évaluer la vraisemblance de leurs amplitudes au titre de variabilité globale du
processus d’acquisition de la donnée.
Une première application de l’approche a été réalisée pour la chlorophylle a et
l’abondance phytoplanctonique aux lieux de surveillance « Arcachon-Bouée – 7 » et
« Teychan bis » du réseau d’observation et de surveillance du phytoplancton et de
l’hydrologie dans les eaux littorales (REPHY). Cette étude montre que pour la chlorophylle
a, la variabilité d’observation est responsable de l’ordre de 80 % de la variabilité totale sur
les deux lieux de surveillance. Pour l’abondance phytoplanctonique, elle est également de
80 % à « Arcachon-Bouée 7 » mais de l’ordre de 70 % à « Teychan bis ». Ainsi la part de
« bruit » est liée au lieu et au paramètre considéré. Exprimée en pourcentage de la
médiane de la distribution de la chlorophylle a, la variance d’observation place les bornes
de l’intervalle de confiance à 90 % des observations à des valeurs de l’ordre de -40 % et
+120 % de la médiane, l’intervalle étant sous-estimé car ne prenant pas en compte la
variabilité structurelle. Pour l’abondance phytoplanctonique en log10 cell./L, les ordres de
grandeur correspondant en pourcentage de la moyenne sont de ± 13.5 %. Pour les deux
paramètres, ces valeurs sont compatibles avec l’expérience des experts.
L’objectif du présent travail consiste à étendre les analyses sur les paramètres
température, turbidité, matières en suspension, concentration en oxygène dissous et
nutriments (i.e. (nitrate+nitrite), ammonium, silicate, phosphate).
2. DONNÉES ET MÉTHODES
Page 7 sur 71
Table 1: Caractéristiques des séries temporelles considérées. MES : matières en suspension. LQ : limite de quantification.
Paramètres Lieux Premières Nbre de Fréquence Laboratoires analystes Méthodes Mesures < LQ
mesures mesures
Température Bouée 7 2003 286 Bimensuelle LER Arcachon Capteur de T°C in situ 0
Page 9 sur 71
Température Teychan 2003 531 Hebdomadaire LER Arcachon Capteur de T°C in situ Thermomètre à mercure dans échantillon – °C le 12 juin 0
Bis
Turbidité Bouée 7 fin 2007 174 Bimensuelle LER Arcachon « Capteur turbidimètre norme ISO 7027 in situ – FNU » 41
Turbidité Teychan 2003 416 Bimensuelle à LER Arcachon 1) « Turbidimètre optique (lumière blanche – TURB) dans échantillon – NTU » 28 mesures à
Bis trimensuelle jusqu’au 12/04/2010, partir du
2) « Capteur turbidimètre norme ISO 7027 in situ – FNU » à partir du 21/09/2007 22/02/2010
3) « Turbidimètre optique (ISO 7027 – TURB FNU) dans échantillon – FNU » à 6
reprises entre janvier 2009 et avril 2009.
MES Bouée 7 2003 286 Bimensuelle LER Arcachon Pesée après filtration et séchage (Aminot A. Kérouel R. 2004) 0
Oxygène Bouée 7 fin 2007 175 Bimensuelle LER Arcachon Capteur oxygène à luminescence – mg/l 0
dissous
Oxygène Teychan fin 2007 174 Bimensuelle LER Arcachon Capteur oxygène à luminescence – mg/l 0
dissous Bis
NO3-+NO2- Bouée 7 2003 286 Bimensuelle 1) IRAD-PERSYST-US49 1) spectrophotométrie flux (Tréguer P., LeCorre P, 1975 – Nitrite + nitrate) 67
jusqu’à la fin de 2007 jusqu’à la fin de 2007
2) LER Arcachon à partir de 2) Spectrophotométrie flux (Aminot A. Kérouel R. 2007 – Nitrite + nitrate) à partir
2008 de 2008
NO3-+NO2- Teychan fin 2007 62 Mensuelle, de novembre LER Normandie en 2007 puis Spectrophotométrie flux (Aminot A. Kérouel R. 2007 – Nitrite + nitrate) – µmol/l 5
Bis à février jusque fin LER Arcachon
2010, toute l’année à
partir de 2011
NH4+ Bouée 7 2003 279 Bimensuelle LER Arcachon 1) Spectrophotométrie manuelle (Aminot et Chaussepied 1983 – Ammonium) 67 dont 64 à
jusque mi-juin 2008 partir de
2) Fluorimétrie flux (Aminot A. Kérouel R. 2007 – Ammonium) à partir de mi-juin septembre
2008 2008
NH4+ Teychan fin 2007 62 Mensuelle, de novembre LER Arcachon 1) Spectrophotométrie flux (Aminot A. Kérouel R. 2007 – Ammonium) – µmol/l en 5
Bis à février jusque fin 2007
2010, toute l’année à 2) Fluorimétrie flux (Aminot A. Kérouel R. 2007 – Ammonium) – µmol/l après 2007
partir de 2011
PO43- Bouée 7 2003 224 Bimensuelle jusque LER Arcachon 1) Colorimétrie selon Murphy et Riley (3) – AFNOR jusque mi-mai 2008 31 à partir de
début 2010, quasi- 2) Spectrophotométrie flux (Aminot A. Kérouel R. 2007 – Phosphate) à partir de 2011
mensuelle au-delà. mi-mai 2008
PO43- Teychan fin 2007 54 Mensuelle, de novembre LER Arcachon 1) Colorimétrie selon Murphy et Riley (3) – AFNOR en 2007 23 à partir de
Bis à février jusque fin 2) Spectrophotométrie flux (Aminot A. Kérouel R. 2007 – Phosphate) après 2007 2011
2010, toute l’année à
partir de 2011
Si(OH)4 Bouée 7 2003 286 Bimensuelle 1) CREMA jusqu’en janvier 1) Spectrophotométrie flux (Tréguer P., LeCorre P, 1975 – Silicate) – µmol/l 13
2007 jusqu’en 2007
2) LABOCEA-29P jusque fin 2) Spectrophotométrie flux (Aminot A. Kérouel R. 2007 – Silicate) – µmol/l après
2007 2007
3) LER Arcachon par la suite
Si(OH)4 Teychan fin 2007 62 Mensuelle, de novembre 1) LABOCEA-29P jusque fin 1) Spectrophotométrie flux (NF EN ISO 16264 – Silicate) – µmol/l jusque fin 2007 0
Bis à février jusque fin 2007 2) Spectrophotométrie flux (Aminot A. Kérouel R. 2007 – Silicate) – µmol/l après
2010, toute l’année à 2) LER Arcachon par la suite 2007
partir de 2011
Les matières en suspension ne sont pas mesurées à « Teychan bis » où seule la stratégie
REPHY est appliquée, dans laquelle la transparence de l’eau est quantifiée via les données
de turbidité. Deux méthodes de mesures ont été utilisées pour mesurer ce paramètre, US
EPA1980 et norme ISO 7027-1 : la conversion entre les deux types de données est effectuée
par une simple division, facteur de 1,35 (Hongve and Åkesson, 1998). La station « Arcachon
– Bouée 7 » fait partie des points suivis par le réseau hydrologique ARCHYD, dont la
stratégie prévoit également la mesure des matières en suspension. En ce qui concerne les
silicates, il faut signaler que le mode de conservation des échantillons a changé au cours
du temps : congélation jusqu’à la fin de l’année 2007, stockage au réfrigérateur à partir du
début de l’année 2008. En raison du problème de polymérisation du silicate observé lors de
la congélation, les données acquises avant 2007 sont vraisemblablement sous-estimées.
Page 10 sur 71
3.9 SYNTHÈSE CONCERNANT LES VARIANCES D’OBSERVATION
La table 2 rassemble les estimations des variances d’observation des paramètres ainsi que
leurs contributions non structurelles aux bornes des intervalles de confiance.
4. DISCUSSION
Température
Les modèles obtenus sur les deux sites sont très similaires. Ils présentent des pentes
positives mais non significativement différentes de 0, induisant des niveaux moyens
croissants mais ne permettant pas de conclure à une augmentation de la température. Le
facteur saisonnier montre dans les deux cas un hiver 2006-2007 particulièrement doux et
un été 2007 moins chaud que ceux des autres années de la période considérée. Ce schéma
est compatible avec le bilan de Météo France pour l’année 2007e. Par ailleurs, l’été 2003,
caractérisé par une canicule européenne de juin à août, est également identifiée comme
année particulièrement chaude.
Les variances d’observation, 1.05 °C² et 1.12 °C², sont du même ordre de grandeur, de
même que les contributions non-structurelles aux bornes des intervalles de confiance :
± 1.35 °C et ± 1.41 °C. C’est à la fois peu, relativement aux variabilités constatées pour la
presque totalité des autres variables, et beaucoup pour une mesure très maîtrisée
techniquement. Mais la variance d’observation ne témoigne pas seulement de la variabilité
de mesure. Elle intègre des éléments contextuels, par exemple l’heure de mesure (e.g.
matin ou après midi), les spécificités météorologiques de la journée de la mesure dans la
semaine, de cette semaine dans le mois, etc. Ainsi, pour une semaine donnée dans
l’année, il s’agit donc bien de l’intégration des variabilités de cette semaine dans l’année
standard à travers les années particulières. Ceci est vrai pour tous les paramètres.
e. http://www.meteofrance.fr/climat-passe-et-futur/bilans-climatiques/bilan-2007/bilan-de-
lannee-2007
Page 53 sur 71
Turbidité
Pour les deux lieux, la pente du niveau moyen est positive, significativement différente de
0 à « Teychan bis » et très proche de cette significativité à « Arcachon-Bouée 7 ». À
« Teychan bis », le changement de méthode suggéré intervient à l’issue d’une période
d’utilisation alternée de deux méthodes différentes. En dépit de la transformation de
variable appliquée pour uniformiser les unités de mesures, il est visible que les niveaux
médians des deux méthodes ne sont pas les mêmes. Il s’ensuit que la comparaison des
niveaux de turbidité est rendue difficile. Mais, à partir de 2010 la même méthode est
utilisée pour les deux lieux, et sur cette période l’évolution et les niveaux médians
apparaissent très similaires. À « Arcachon-Bouée 7 », amplitude et phase estimées de la
saisonnalité sont constantes au cours du temps. Cette absence d’adaptation du modèle est
liée à un ratio signal sur bruit dans lequel la part de bruit est dominante. En revanche à
« Teychan bis », les amplitudes sont moindres sur la période 2006-2008, et maxima et
minima ont été plus tardifs. D’une part, la singularité de l’année 2007, avec un premier
semestre exceptionnellement chaud et un second semestre en dessous des normales
saisonnière et très pluvieux a déjà été relevé. Ce point pose la question d’un caractère
artéfactuel du mouvement phénologique relevé sur l’ensemble de la période résultant
uniquement d’une adaptation du modèle à la particularité de l’année 2007. D’autre part,
cette année est également celle à la charnière des prélèvements à -3 mètres et en
sub-surface.
Une grande part de la variabilité est liée à l’observation. Cela se traduit par des
contributions non-structurelles importantes sur les deux lieux de surveillance. Elles sont
notablement plus grandes à « Arcachon-Bouée 7 », située à l’embouchure du bassin. Pour
les deux lieux, l’atteinte de la limite de quantification pour des périodes de plusieurs
semaines contribue à une sous-estimation des variances d’observation. Elles sont du même
ordre de grandeur, mais celle de « Arcachon-Bouée 7 » est plus importante. Ce constat est
surprenant au regard du positionnement de ces points de mesure : Bouée 7 situé à la sortie
du bassin d’Arcachon sous l’influence des eaux océaniques et Teychan bis situé dans le
bassin soumis plus fortement à l’influence des apports anthropiques.
Matières en suspension
Cette mesure est liée à la turbidité sans être redondante avec elle (Jafar-Sidik et al.,
2017). Sur « Arcachon-Bouée 7 », seul lieu pour lequel la mesure est disponible, le niveau
médian de concentration diminue jusqu’à la fin de 2008 puis augmente jusqu’à atteindre
un plateau en 2011. Cette augmentation est cohérente avec la pente positive de la
turbidité observée sur ce même lieu. D’un point de vue phénologique, les amplitudes
saisonnières sont plus réduites sur 2007-2010. En revanche, les maxima et minima sont plus
précoces et les années 2008 à 2009 en particulier, et ont présenté des maxima estivaux
intermédiaires.
Les contributions non-structurelles aux bornes de l’intervalle de confiance des observations
sont plus petites que celles de la turbidité.
Pour ces paramètres, turbidité et matières en suspension, il faut noter qu’ils sont très
sensibles aux phénomènes météorologiques ponctuels (e.g. coups de vent, précipitations).
Les opérations de prélèvements ne peuvent techniquement être effectuées si les
conditions météorologiques sont mauvaises. Par ailleurs, la fréquence d’échantillonnage
n’est pas à même de capturer les événements transitoires. Ainsi, ces contraintes
techniques et le plan d’échantillonnage sont susceptibles d’affecter l’identification des
valeurs exceptionnelles et l’estimation des niveaux médians, sans doute plus que pour les
autres variables.
Page 54 sur 71
Concentration en oxygène dissous
Le fait le plus remarquable concernant les tendances de cette variable est l’identification
d’un décrochement des médianes de mi-2010 à mi-2011. L’hypothèse la plus vraisemblable
est celle d’un problème de calibration de sonde. Cette singularité pose la question de la
significativité de la différence de niveau médian avant et après cet événement, la pente
étant continûment non significativement différente de 0 sur toute la période. Il en va de
même en ce qui concerne l’estimation des paramètres saisonniers.
Cette variable apparaît comme peu bruitée relativement aux variables déjà examinées. La
variance structurelle (i.e. tendance+saisonnalité) et la variance d’observation montrent
des amplitudes similaires. Les variances d’observation sur les deux lieux sont égales à 10 -2
près. Lorsque ces variations sont traduites en contributions non-structurelles à l’intervalle
de confiance des observations, « Teychan bis » apparaît un peu plus variable.
Concentration en (nitrate+nitrite)
Les résultats concernent uniquement « Arcachon-Bouée 7 ». Les niveau moyen, pente,
amplitude et phase de la saisonnalité présentent des changements sur toute la période.
Relativement aux commentaires précédents, en 2008-2010 les concentrations ont été
moindres et les amplitudes saisonnières importantes.
La variance d’observation et les contributions à l’intervalle de confiance des observations
sont importantes. Par ailleurs, sur le graphique des observations en fonction des médianes
de leurs distributions, les concentrations les plus faibles s’inscrivent de manière homogène
dans le triangle de l’intervalle de confiance des observations (cf. p 35), mais les valeurs les
plus élevées sont plus resserrées autour de l’intervalle de confiance de la médiane des
concentrations. Ceci peut être le symptôme d’une relation moyenne-variance impliquant,
en première analyse, une variance plus réduite (proportionnellement) pour les
concentrations élevées. Mais, attendu que d’un point de vue méthodologie de mesure, ce
sont les valeurs proches de la limite de quantification qui présentent une variabilité
importante, le diagnostic est sans doute celui de valeurs faibles présentant une variabilité
élevée.
Concentration en ammonium
La pente diminue sur les deux lieux, continûment négative à « Arcachon-Bouée 7 » et non
significativement différente de 0, initialement positive à « Teychan bis », significative en
début et fin de série. Il s’ensuit un niveau moyen visuellement décroissant mais
statistiquement constant à « Arcachon-Bouée 7 », alors que sur « Teychan bis », il présente
une évolution en cloche concave. Sur les deux lieux, les amplitudes et phases des
saisonnalités sont constantes. les maxima et minima sont atteints, respectivement, en
mars et août à « Arcachon-Bouée 7 » et en janvier et septembre à « Teychan bis ».
Pour les deux lieux, les variabilités d’observation apparaissent supérieures aux
structurelles, en particulier à « Arcachon-Bouée 7 ». Pour « Teychan bis », il faut noter
que :
1. la série est plus courte et ainsi les événements susceptibles d’avoir un effet sur la
variance sont potentiellement plus nombreux à « Arcachon-Bouée 7 ».
2. la fréquence d’échantillonnage est moindre : le simple fait de souligner ce fait pose
la question de l’influence de ce paramètre sur l’estimation de la variance
d’observation ;
3. les mesures ont été effectuées seulement pendant la fin de l’automne et l’hiver
pendant 3 années sur les 7 que compte la série : il y a sans doute ici un biais à la
sous-estimation de la variance d’observation de la série.
Page 55 sur 71
Sur le graphique des observations en fonction des médianes de leurs distributions
(cf. p. 38), le trapèze formé par l’intervalle de confiance des observations encadre sans
excès les observations, contrairement à la situation constatée pour NO3-+NO2-. Mais les
concentrations de ce dernier paramètre sont jusqu’à 24 fois supérieures à celles du NH4- ;
autrement dit, pour ce dernier les concentrations sont souvent beaucoup plus proches de
la limite de quantification, pour lesquelles la stabilisation de la variance par la
transformation logarithmique apparaît pertinente et adaptée.
Concentration en phosphate
À « Arcachon-Bouée 7 », le niveau moyen montre une décroissance significative à partir de
2010, la pente redevenant non significativement différente de 0 à partir de 2012. Les
amplitudes saisonnières sont moindres entre 2008 et 2011. C’est également une période
pendant laquelle le minimum de concentration est atteint plus précocement. Pour
« Teychan bis », pour laquelle les données sont disponibles à partir de fin 2007, les
concentrations apparaissent stationnaires et le minimum annuel glisse d’avril à août en
2012.
En matière de variance d’observation, les constats sont très similaires à ceux décrits pour
le NH4- : supériorité de la variance d’observation sur la variance structurelle à
« Arcachon-Bouée 7 » et impact très probable de la fréquence et des périodes
d’échantillonnage pour « Teychan bis » pour lequel la variance d’observation est moins
importante.
Concentration en silicate
À « Arcachon-Bouée 7 » la pente est positive et significativement différente de 0 induisant
un niveau moyen croissant. Mais l’élément le plus marquant est constitué par la baisse
importante de niveau en 2006, depuis le 20 avril et jusqu’au 31 octobre, mis à part une
valeur exceptionnelle observée le 14 septembre à 9.6 µmol/L. L’éventualité d’un problème
dans le processus de mesure devrait être examiné en premier lieu. Météo France relève
une situation de sécheresse en 2006 :
Ces éléments contextuels suggèrent l’hypothèse d’un apport limité en silicate. Mais il faut
noter que les autres nutriments ne présentent pas ce même profil d’évolution. Par ailleurs,
entre le 19 juin et le 3 août les concentrations sont plus élevées. Cette période de juillet
2006 est identifiée comme caniculaire par Météo France :
Page 56 sur 71
Les amplitudes de la saisonnalité sont plus faibles en 2006 et 2007. Les concentrations
minimales ont été plus précoces de 2005 à 2011, mi-mai au lieu de mi-juin. La série à
« Teychan bis » commence fin 2007. Le niveau moyen apparaît globalement en
augmentation sur la période, comme pour « Arcachon-Bouée 7 », bien que le faible nombre
de données jusqu’en 2010 induise une variabilité plus importante au début de la série.
Comme pour les autres nutriments, la variabilité d’observation est plus importante à
« Arcachon-Bouée 7 » à la fois pour la variance estimée et les contributions non
structurelles aux bornes de l’intervalle de confiance.
Synthèse et remarques méthodologiques
La période de 2005 à 2010 concentre plusieurs singularités : la canicule de 2006, l’hiver et
le printemps doux de 2006-2007, identifiés dans les analyses des séries temporelles, des
amplitudes de saisonnalité amorties pour la turbidité, les matières en suspension, le
NO3-+NO2- et le Si(OH)4, des concentrations en baisse pour les matières en suspension et le
NO3-+NO2-, des concentrations très faibles en Si(OH)4 en 2006. Ces remarques constituent
des fragments non-exhaustifs de l’histoire hydrologique et biologique des deux lieux de
surveillance pendant la période considérée. Ils renforcent la conviction que l’approche
méthodologique utilisée est pertinente. L’examen des variances d’observation comme
approche de l’incertitude en est d’autant plus légitime. La variabilité d’observation
apparaît faible pour la température, qui est une mesure très maîtrisée et pour la
concentration en oxygène dissous, qui est une mesure effectuée par sonde. Les mesures de
nutriments sont caractérisées par des variances d’observation importantes, supérieures à
la variabilité structurelle (i.e. niveau moyen et saisonnalité), mais des signaux non triviaux
sont présents dans les séries. La turbidité présente une variabilité plus importante que la
mesure de matières en suspension.
Pour la température, les résultats obtenus se sont avérés très similaires pour les deux
lieux. Mais pour les nutriments, les mesures prises à « Teychan bis » ont une variabilité
moindre que celles prises à « Arcachon-bouée 7 ». Pour ces paramètres, les séries du
premier lieu sont également plus courtes et présentent une fréquence d’échantillonnage
plus faible et centrée sur l’hiver jusqu’en 2010. Sans surprise, ces caractéristiques ont une
influence sur la variance estimée. Dans ce type de contexte, l’utilisation de modèle
permettant la modélisation jointe des deux séries (e.g. via un modèle Seemingly Unrelated
Time Series Equation (SUTSE)) permettrait d’améliorer l’estimation des paramètres (Petris
et al., 2009).
Pour le NO3-+NO2-, le graphique p 35 a montré que la transformation logarithmique ne
permettait sans doute pas de complètement se ramener à une situation
d’homoscédasticité, la variabilité étant plus grande pour les mesures plus proches de la
limite de quantification. Une manière de traiter ce problème serait de basculer vers des
modèles à variances variables dans le temps. L’approche permettrait tout à la fois de
s’adapter aux variations liées, par exemple, à des changements de méthodes ou de
laboratoire analyste, tout en offrant une grande souplesse dans la relation entre la
variance et la concentration. Ce changement suppose de passer à un formalisme
entièrement bayésien, en particulier en ce qui concerne l’estimation des paramètres qui
devrait se faire à l’aide de méthodes de simulation (e.g. Metropolis-Hastings) voire en
utilisant l’approche Integrated Nested Laplacian Equation (INLA).
Le tableau résumant les caractéristiques des données utilisées pour cette étude (table 1,
p. 9) souligne que la plupart des paramètres sont suscéptibles de présenter un nombre
variable de résultats inférieurs à la limite de quantification. Ceci est également vrai pour
les comptages phytoplanctoniques. Par ailleurs, comme les méthodes changent au cours du
temps, les limites de quantifications peuvent varier pour une série donnée. Ces
caractéristiques sont très importantes et peuvent avoir un impact tout à la fois sur l’indice
de position (e.g. moyenne, médiane) mais aussi sur la variance, de la distribution estimée.
Page 57 sur 71
C’est-à-dire que non seulement les paramètres de position estimés des distributions des
concentrations peuvent être biaisés mais également que le rapport signal sur bruit peut
être affecté et avec lui la capacité d’adaptation du modèle c’est-à-dire la trajectoire
temporelle des concentrations. Récemment, des travaux ont adressé cette question
méthodologique dans le contexte du filtre de Kalman et dans un objectif de prédiction
(Allik et al., 2016). Il existe par ailleurs des formulations bayésiennes de ce problème.
Quelle que soit l’approche choisie, il s’agit d’un investissement méthodologique important
pour un gain en généricité et en pertinence. Enfin, la question se pose de savoir ce qui doit
être bancarisé : la limite de quantification, la valeur mesurée même si elle est inférieure à
la limite de quantification, ou les deux.
Le changement de niveau qui affecte la concentration en oxygène dissous induit un impact
sur l’estimation de la saisonnalité. De la même manière, le changement de niveau pour le
Si(OH)4 est accompagné d’une diminution des amplitudes de la saisonnalité. Ces
modifications de la saisonnalité sont-elles des conséquences « mécaniques » ou
continuent-elles à porter une information pertinente relativement à la série ? Petris et al.
(2009) proposent un modèle « for outliers and structural breaks » qui intègre la possibilité
d’interventions sur les paramètres de la saisonnalité. Plus globalement, le point abordé ici
concerne le caractère approprié de la modélisation de la saisonnalité dans la forme
actuelle du modèle et en particulier dans le contexte d’interventions concernant le niveau
moyen. Au-delà du modèle proposé par Petris, il s’agit de la mise en œuvre de modèles
robustes (Fúquene et al., 2015).
Parmi les 14 modèles réalisés, tous respectent l’hypothèse de normalité des résidus au
regard du test de Kolmogorov-Smirnov et 9 respectent l’hypothèse d’indépendance pour le
test de Stoffer-Toloi. L’ensemble de la méthode DLM utilisée repose sur ces hypothèses :
d’un point de vue méthodologique cette opération logique est l’inférence, qui consiste à
tenir pour vraies des propositions et conclure à la vérité de nouvelles propositions en vertu
de leurs liaisons avec les premières. Paradoxalement, les causes du non-respect des
hypothèses de normalité et d’indépendance, les procédures pour les évaluer et les
conséquences de la violation de ces hypothèses font l’objet d’une littérature peu
abondante. Pour ce qui est de l’indépendance des résidus dans l’analyse des séries
temporelles, elle peut être causée par un modèle mal spécifié ou qui pourrait être
amélioré par l’adjonction de termes supplémentaires, en général auto-régressifs. Sur ce
point particulier, nous nous rapprochons de la position de West et Harrison (1997, p. 349) :
It is sometimes tempting to explain more global movement in the series by
such noise models when in fact they should be attributed to changes in trend
or other components of the basic DLM.
Page 58 sur 71
nulle, capacité qui est d’autant plus importante que le nombre de données est grand.
Autrement dit, plus la série comporte un grand nombre de données et plus il est probable
de conclure à la dépendance des résidus. En substance, il apparaît qu’il y a là une question
méthodologique qui mériterait de plus amples développements.
5. CONCLUSION
Les écosystèmes marins sont des milieux complexes. Ils sont influencés par des
phénomènes météorologiques, hydrodynamiques, écologiques, biologiques et anthropiques.
Tous interagissent les uns avec les autres. Par voie de conséquence, établir l’histoire d’un
paramètre pour un lieu et une période donnés à partir de sa série temporelle est un
exercice difficile. Cela implique de se mettre en butte de manière récurrente à la
frustration de ne pas disposer de l’ensemble des informations dont l’examen pourrait
expliquer changements et singularités. Il n’en reste pas moins que les séries temporelles
étudiées contiennent un signal et que les informations exogènes accessibles sont
éclairantes quant aux chocs et valeurs exceptionnelles. Il s’ensuit que les résultats issus
des modèles permettent d’appréhender des caractéristiques non-triviales de ces données.
Il en va ainsi de la variance d’observation des DLM en tant que proxy f de l’incertitude du
processus d’acquisition de la donnée.
Les résultats montrent pour la température qu’en dépit d’une mesure très maîtrisée, la
variance d’observation, tel que définie ci-dessus, est de l’ordre de 1 °C². Le signal reste
néanmoins très peu bruité comme pour la concentration en oxygène dissous pour laquelle
la variance d’observation est de 0.05 (mg/L)². Pour les autres paramètres, les
contributions non-structurelles aux bornes des intervalles de confiance à 90 % des
observations en pourcentage de la médiane varient de -20 % à -60 % pour la borne
inférieure et de 60 % à 500 % pour la borne supérieure. Les contributions les plus réduites
sont le fait des mesures réalisées au lieu « Teychan bis » pour lequel les séries sont plus
courtes, la fréquence d’échantillonnage variable dans le temps et le plan déséquilibré sur
les saisons.
De nombreuses améliorations du modèle sont possibles et envisagées. Le traitement joint
des séries de différents lieux d’un même paramètre est un premier pas vers une
intégration multivariée. Mais au regard de la complexité des écosystèmes marins et les
interdépendances multiples des phénomènes en jeu, la construction d’un modèle
considérant conjointement plusieurs paramètres et leurs interactions apparaît
incontournable.
f. Un proxy ou une variable proxy est une variable qui n’est pas significative en soi, mais qui sert en
lieu et place d’une variable non observable ou non mesurable.
Page 59 sur 71
6. BIBLIOGRAPHIE
Allik, B., Miller, C., Piovoso, M.J., Zurakowski, R., 2016. The Tobit Kalman Filter : An
Estimator for Censored Measurements. IEEE Transactions on Control Systems
Technology 24, 365–371. https://doi.org/10.1109/TCST.2015.2432155
Aminot, A., Kérouel, R., 2004. Hydrologie des écosystèmes marins : paramètres et
analyses, Méthodes d’analyse en milieu marin. Ifremer.
Brown, C.D., Canfield, D.E., Bachmann, R.W., Hoyer, M.V., 1998. Seasonal Patterns of
Chlorophyll, Nutrient Concentrations and Secchi Disk Transparency in Florida Lakes.
Journal of Lake and Reservoir Management 14, 60–76.
Fúquene, J., Álvarez, M., Raúl Pericchi, L., 2015. A robust Bayesian dynamic linear model
for Latin-American economic time series : “the Mexico and Puerto Rico cases.”
Latin American Economic Review 24, 1–17. https://doi.org/10.1007/s40503-015-
0020-z
Harvey, A., Koopman, S.J., Penzer, J., 1998. Messy time series : a unified approach.
Advances in Econometrics 13, 103–143.
Hongve, D., Åkesson, G., 1998. Comparison of nephelometric turbidity measurements using
wavelengths 400–600 and 860 nm. Water Research 32, 3143–3145.
https://doi.org/10.1016/S0043-1354(98)00051-7
Hyndman, R.J., Athanasopoulos, G., 2013a. ARIMA models, in : Forecasting : Principles and
Practice. OTexts, Melbourne, Australia. Section 8/5. http://otexts.org/fpp/8/5.
Accessed 13/10/2017.
Hyndman, R.J., Athanasopoulos, G., 2013b. The forecaster’s toolbox, in : Forecasting :
Principles and Practice. OTexts, Melbourne, Australia. Section 2/6.
https://www.otexts.org/fpp/2/6. Accessed 09/02/2018.
Jafar-Sidik, M., Gohin, F., Bowers, D., Howarth, J., Hull, T., 2017. The relationship
between Suspended Particulate Matter and Turbidity at a mooring station in a
coastal environment : consequences for satellite-derived products. Oceanologia 59,
365–378. https://doi.org/10.1016/j.oceano.2017.04.003
Petris, G., Petrone, S., Campagnoli, P., 2009. Dynamic linear models with R, Use R !
Springer.
R Development Core Team, 2008. R : A Language and Environment for Statistical
Computing. R Foundation for Statistical Computing, Vienna, Austria.
REPHY – French Observation And Monitoring Program For Phytoplankton And Hydrology In
Coastal Waters, 2017. REPHY dataset – French Observation and Monitoring program
for Phytoplankton and Hydrology in coastal waters. 1987-2016 Metropolitan data.
https://doi.org/10.17882/47248
Soudant, D., Miossec, L., Neaud-Masson, N., Auby, I., Maurer, D., Daniel, A., 2016.
Incertitudes des méthodes d’évaluation « eaux littorales » : utilisation de modèles
linéaires dynamiques pour l’évaluation des incertitudes (chlorophylle a,
phytoplancton), Rapport Aquaref 2015.
Stoffer, D.S., Toloi, C.M.C., 1992. A note on the Ljung-Box-Pierce portmanteau statistic
with missing data. Statistics and probability letters 13, 391–396.
West, M., Harrison, J., 1997. Bayesian forecastind and dynamic models. Springer-Verlag.
Page 60 sur 71
7. ANNEXE 1 : REPRODUCTION DE LA SECTION MÉTHODE DU
PRÉCÉDENT RAPPORT.
Modèle
Un DLM peut contenir différents composants tels qu’une tendance, un terme saisonnier ou
certaines variables indépendantes et leurs coefficients. La forme générale du modèle
utilisé ici comporte deux parties : une tendance linéaire locale, sous la forme d’un DLM de
série temporelle (TSDLM) d’ordre 2, et une composante saisonnière. Les données sont
décrites par l’équation d’observation :
Y t =μ t + FS t + νt , ν t ∼N (0, V )
avec
Yt , observation
μt , niveau moyen ou tendance
FS t , saisonnalité
νt , terme d'erreur ou innovation
V, variance d'observation
Ici et par la suite, les caractères gras représentent des vecteurs et des matrices. Le signal
observé est décomposé en un niveau moyen et une saisonnalité. Le vecteur F dépend
de la forme, factorielle ou trigonométrique, et l’unité de temps de la saisonnalité. Enfin,
un terme d’erreur ν t , distribué selon une loi normale de moyenne 0 et de variance
V est ajouté pour représenter le bruit venant de toute la variabilité du processus
d’acquisition des données du prélèvement, incluant la variabilité de l’environnement, à la
saisie de données et à des facteurs qui ne sont pas pris en compte dans le modèle. La
variance V est la variance d’observation qui fait l’objet de notre attention dans cette
étude. La somme du niveau moyen et de la saisonnalité représente un processus
inobservable sous-jacent. Ces composants sont indicés par le temps, ce qui souligne qu’ils
peuvent évoluer avec le temps. L’équation d’évolution décrit cette évolution :
μt =μt−1+ βt −1 + ωμ ,t , ω μ ,t ∼ N (0,0)
βt =βt −1 + ωβ ,t , ω β , t ∼ N (0,W β ,t )
S t=G S t−1 + ω S ,t , ω S ,t ∼N (0,W S , t )
A l’instant t , le niveau moyen est égal à sa valeur au temps t−1 additionné à
βt −1 . Cela signifie aussi que μt −μt−1=β t−1 , i.e. la différence de niveau moyen entre
deux unités de temps, i.e. βt−1 est la pente. En résumé, le niveau moyen au temps t
est égal au niveau moyen au temps t −1 additionné à la pente au temps t −1 . En
outre, un terme d’erreur ωμ , t est ajouté. Comme l’équation d’évolution décrit le
processus sous-jacent réel et inobservable, ce terme d’erreur est parfois appelé
l’innovation, en tant que source de changements. Mais ici, sa variance est égale à zéro, ce
qui induit que la seule source de variation dans le niveau moyen est la pente. Ce cas
particulier de modèle est appelé Integrated Random Walk. Les deux dernières équations
décrivent, respectivement, les évolutions de la pente et de la saisonnalité égaux à ceux de
t−1 avec des termes d’innovation, ωβ ,t et ω S , t de variance non nulles. La
matrice G dépend de la forme et de l’unité de temps de la saisonnalité. L’équation
d’évolution peut prendre une forme matricielle dans laquelle les termes d’erreurs
constituent un vecteur multinormale de moyenne 0 et de variance W t : cette dernière
est appelée variance d’évolution.
Page 61 sur 71
Le TSDLM d’ordre 2 a été choisi pour sa capacité à prendre en charge les tendances
constantes, linéaires et quadratique ce qui, a priori, semble suffisant pour capturer tout
type d’évolution dans les séries chronologiques environnementales. Comme indiqué
précédemment, la saisonnalité peut être spécifiée sous deux formes : factorielle et
trigonométrique. Dans le premier cas, un paramètre est estimé pour chaque unité de
temps (e.g. mois). Si la saisonnalité est supposée être constante dans le temps (c.-à-d.
variance d’innovation égale à 0) alors les mêmes estimations sont utilisées pour chaque
unité de temps au fil des ans. A l’inverse, le paramètre de saison peut être estimé à
chaque unité de temps reflétant une saisonnalité variable dans le temps. Si la saisonnalité
est modélisée sous forme trigonométrique, en substance, une phase et une amplitude sont
estimées qui peuvent être constantes ou variables dans le temps en fonction de la
spécification de W S , t . Si la saisonnalité est soupçonnée être bi-modale, c’est-à-dire
présenter deux épisodes de valeurs élevées, deux harmoniques doivent être précisées de
sorte que deux phases et deux amplitudes soient estimées. Indiquer deux harmoniques
n’induit pas nécessairement un modèle présentant deux modes mais permet de modéliser
un système présentant au plus deux modes.
Dans le choix de la forme de la saisonnalité, l’approche trigonométrique, impliquant une
évolution sinusoïdale, peut être vue comme une hypothèse trop forte et ainsi la forme
factorielle pourrait être toujours préférée. Toutefois, le principe de parcimonie incline à
choisir, à performance égale, les modèles présentant le moins de paramètres. Or dans la
forme factorielle, le nombre de paramètres de saisonnalité est égal aux nombre de
« saisons » moins 1. Pour les unités allant du trimestre au jour, le nombre de paramètres
augmente de 3 à 364 pour la forme factorielle tandis que la forme trigonométrique ne
nécessite que deux paramètres par harmonique. Au regard d’une fréquence de
prélèvement théorique bimensuelle et de l’observation habituelle d’un bloom printanier et
d’un bloom automnal, en respect du principe de parcimonie une forme trigonométrique
avec deux harmoniques a été choisie.
Lorsque les composantes du modèle ont été choisies, les paramètres du modèle,
c’est-à-dire les variances d’observations et d’évolutions, peuvent être estimées par la
méthode du maximum de vraisemblance. Pour ce processus d’optimisation, les valeurs
initiales ont été choisies égales à la variance de la série temporelle modélisée. Les
variances d’observation et d’innovation jouent un rôle central en estimant la part de signal
et la part de bruit dans les observations. Le ratio signal sur bruit détermine la mémoire du
processus et la quantité d’informations contenue dans les observations utilisées pour le
filtrage et lissage des observations. Ces dernières étapes sont prises en charge par un filtre
de Kalman. Enfin, comme le processus est défini de façon récursive, avec la première
observation à t=1 , des valeurs a priori à t=0 pour le niveau moyen, la pente et la
saisonnalité et leurs variances doivent être spécifiées. Des valeurs très peu informatives
sont choisies : toutes les moyennes sont mises à 0 et toutes les variances à 107. Ces valeurs
sont celles utilisées par défaut (Petris et al., 2009).
Interventions
Une intervention est le nom donné à une modification d’un paramètre du modèle afin de
prendre en compte une information exogène. Ici, seuls les changements de niveau moyen
et la prise en compte des valeurs exceptionnelles sont considérés. Précédemment, il a été
souligné que la pente est le seul facteur de l’évolution de la tendance, car la variance
d’évolution du niveau moyen est fixée à 0. Quand un changement dans le niveau moyen est
suspecté à l’instant t , une variance d’évolution du niveau moyen non nulle est spécifié
pour cette unité de temps et estimée par maximum de vraisemblance. Pour ce processus
d’optimisation, la valeur initiale est la variance de la série temporelle modélisée. Il peut y
avoir autant de variances d’évolution non nulles du niveau moyen que de changements de
niveau soupçonnés. Ces spécifications n’induisent pas nécessairement un modèle montrant
des changements de niveau mais les probabilités de changement seront évaluées et, si
Page 62 sur 71
certains d’entre eux sont vraisemblables d’un point de vue numérique, le modèle
présentera des changements de niveau. Les experts restent juges ultimes de la pertinence
de ces interventions.
Les valeurs exceptionnelles sont définies comme des mesures avec des variances
d’observation inhabituellement élevées, quelle que soit leur source (e.g. événements
inhabituels). Si une valeur exceptionnelle est suspectée à l’instant t , alors un
paramètre d’augmentation de la variance d’observation est ajouté au modèle. Il s’agit
d’une quantité supérieure ou égale à 1 qui intervient comme multiplicateur de la variance
d’observation de routine. Chaque valeur exceptionnelle peut être traitée de cette façon.
Comme auparavant, la pertinence numérique de ces spécifications est évaluée par
maximum de vraisemblance, la valeur initiale pour le processus d’optimisation étant 1, et
les experts ont le dernier mot quant à l’identification effective des valeurs
exceptionnelles.
Identification des valeurs exceptionnelles et des changements dans la tendance
Trois possibilités étaient envisageables pour l’identification des points de changement et
des valeurs exceptionnelles. La première était d’avoir recours exclusivement à des
approches statistiques. De cette manière, les résultats présenteraient un caractère
d’optimalité d’un point de vue numérique mais le cas échéant aux dépens de
l’interprétation écologique. La seconde option était de se fonder uniquement sur
l’information exogène. Ainsi chaque changement est motivé par une causalité
préexistante ; cependant il n’existe pas de série pour laquelle une telle information existe
de manière exhaustive, qui au demeurant, rendrait l’analyse inutile. La dernière approche
consiste à s’appuyer sur des méthodes statistiques et la connaissance des experts. C’est
celle qui est mise en œuvre ici.
L’approche statistique utilisée pour la détection des changements et valeurs
exceptionnelles s’appuie sur la définition des valeurs exceptionnelles dans la
représentation boîte-à-moustaches (Box-and-whiskers plot). Dans cet outil, les valeurs
exceptionnelles d’une loi normale centrée-réduite sont les valeurs supérieures à 2.7 ou
inférieures à -2.7, ce qui correspond, respectivement, aux 0.35 % valeurs les plus élevées
et les 0.35 % valeurs les plus faibles pour un total de 0.7 % de la distribution dans son
ensemble. Ces valeurs seuils, -2.7 et 2.7, sont utilisées en conjonction avec les résultats
d’un modèle. Pour les valeurs exceptionnelles, les erreurs standardisées sont examinées. Il
s’agit des écarts entre les observations et les valeurs lissées du modèle, divisées par la
racine carrée des variances des valeurs lissées. La distribution des erreurs standardisées
est supposée être une loi normale centrée-réduite. De ce fait, les valeurs supérieures à 2.7
ou inférieures à -2.7 correspondent à des observations potentiellement exceptionnelles et
ainsi candidates à un traitement approprié.
La même démarche est mise en œuvre pour les changements de niveau. Les valeurs
examinées sont appelées résidus auxiliaires (auxiliary residuals) (Harvey et al., 1998). Pour
les changements de niveaux, il faut considérer les résidus auxiliaires du niveau moyen
c’est-à-dire les valeurs lissées du terme d’erreur du niveau moyen ωμ , t . Dans le cas
particulier de l’Integrated Random Walk utilisé ici, comme la variance de son terme
d’erreur est nulle, ses valeurs lissées sont également nulles et ainsi non-informatives sur
les changements de niveau. Cependant, l’idée des auxiliary residuals est d’examiner les
innovations lissées, c’est-à-dire les changements d’une unité de temps à l’autre,
c’est-à-dire les différences premières du niveau moyen, μ t−μ t−1 . Or comme
μ t−μ t−1=βt−1 , les valeurs lissées de βt−1 standardisées par leurs variances lissées et
centrées sur leur moyenne portent une information similaire. Par convention et pour la
clarté du propos à venir, ces valeurs sont désignées ci-après par l’expression « résidus
auxiliaires du niveau ». Elles peuvent être comparées aux valeurs seuils 2.7 et -2.7 au-delà
desquelles s’impose le diagnostic de valeurs de pentes exceptionnelles, c’est-à-dire que
l’évolution des données pousse le modèle dans les limites de son adaptation, et suggère un
Page 63 sur 71
changement dans le niveau. Contrairement au cas des valeurs exceptionnelles pour lequel
une erreur standardisée est associée à une mesure, les résidus auxiliaires exceptionnels de
la pente constituent souvent des séquences : la mesure pour laquelle il convient de
suggérer un changement de niveau n’est pas unique. L’expérience a montré qu’utiliser la
valeur la plus élevée n’est pas toujours pertinent dans la mesure où l’événement induisant
l’adaptation exceptionnelle peut avoir eu lieu avant ou après la valeur la plus élevée, et
peut même s’être produit avant ou après la séquence de résidus auxiliaires exceptionnels
de la pente. Compte tenu de cela, la procédure opérationnelle d’identification de la
mesure candidate pour une suggestion de changement de niveau est définie comme suit.
Lorsque les résidus auxiliaires de la pente constituent une séquence exceptionnelle (i.e.
supérieures à 2.7 ou inférieures à -2.7), la séquence est étendue aux valeurs voisines
supérieures à 2 ou inférieures à -2g et, dans cette nouvelle séquence, la mesure présentant
l’erreur standardisée la plus élevée en valeur absolue est utilisée pour porter la suggestion
de changement de niveau.
Stratégie d’analyse semi-automatisée
L’ensemble des éléments de méthode décrits ci-avant ne définissent pas une approche
dans laquelle l’estimation des paramètres et l’identification des changements et valeurs
exceptionnelles sont réalisées conjointement. Par voie de conséquence, une stratégie
d’analyse doit être définie. Comme l’identification statistique des valeurs exceptionnelles
et des changements de niveau s’appuie sur les résultats d’un modèle, il y a nécessité
d’ajuster les paramètres du modèle une première fois. Les changements et outliers
suggérés définissent un second modèle, etc. Ainsi, potentiellement, le premier modèle
constitue l’amorce d’une procédure itérative conduisant à d’autres modèles, le cas
échéant de manière infinie. Cet écueil est évité du fait de l’identification des outliers et
changements de niveaux avec les seuils (-2.7, 2.7) correspondant à 0.7 % des distributions.
De cette manière, et par expérience, il n’est pas rare que le premier modèle ne présente
pas de suggestion d’intervention tandis que, le plus souvent, la stabilité est obtenue au
second modèle ou au troisième modèle. Ainsi, le nombre par défaut d’itération a été
limité à trois. Plus rarement le troisième modèle suggère encore des changements. Il est
alors possible de les prendre en compte « manuellement ».
Diagnostic des modèles
Les deux hypothèses à vérifier sont la normalité et l’indépendance des résidus
standardisés. La première est traditionnellement appréciée à l’aide d’un diagramme
quantile-quantile ou Q-Q plot : les quantiles théoriques de la loi normale centrée-réduite
sont portés en abscisse et les valeurs correspondantes des quantiles de la distribution
observée centrée-réduite en ordonnée. Lorsque les points ne présentent pas de déviation
majeure à la première bissectrice, alors la distribution observée suit probablement une loi
normale. Cette approche peut être complétée par un test statistique formel. Le test de
Shapiro-Wilk est considéré comme le plus puissant, c’est-à-dire le moins enclin à conclure
à la normalité en son absence. Toutefois, sa sensibilité aux déviations dans les queues de
distribution et son utilisation pour des échantillons de taille inférieure à 50 sont souvent
relevés. Le test de Kolmogorov-Smirnov est réputé moins puissant mais également moins
sensible aux faibles écarts à la normalité. L’approche graphique et ces deux tests sont
utilisés ici pour apprécier la normalité des résidus.
L’indépendance des résidus est fréquemment évaluée à l’aide du test de Ljung-Box. En
présence d’une série temporelle comportant des données manquantes, l’implémentation
de ce test dans Rh (R Development Core Team, 2008) produit un résultat bien
qu’officiellement, il ne les prenne pas en charge : les calculs élémentaires impliquant une
donnée manquante sont ignorés. Si cette approche peut être d’un impact minimal lorsque
g. Les valeurs 2 et -2 d’une loi normale centrée réduite correspondent aux quantiles 2.5 % et 97.5 %
classiquement utilisés en statistique inférentielle.
h. R est un environnement logiciel libre pour le calcul statistique et la production de graphiques.
Page 64 sur 71
le pourcentage de données manquantes est très réduit, intuitivement, il sera d’autant plus
important que ces proportions seront plus élevées. Or, les séries temporelles de cette
étude peuvent comporter plus de 50 % de données manquante. Stoffer et Toloi (1992) ont
proposé une version modifiée du Ljung-Box pour prendre en charge les données
manquantes. C’est cette version qui a été programmée et est ici est utilisée.
Pertinence des interventions, prolongement de l’analyse et intégration de l’expertise
La qualité de l’ajustement d’un modèle est appréciée à l’aide de la log-vraisemblance
(i.e. log-likelihood, LL) qui est d’autant plus élevée que le modèle est numériquement
vraisemblable. Le caractère significatif de la différence de log-vraisemblance entre deux
modèles emboîtés peut être testé. Deux modèles sont emboîtés si l’ensemble des
paramètres de l’un est inclus dans l’ensemble des paramètres de l’autre. Dans ce cas, la
différence des log-vraisemblances multipliée par deux suit une loi du Chi2 dont le nombre
de degrés de libertés est la différence du nombre de paramètres entre les deux modèles.
Par ailleurs, les comparaisons entre modèles sont réalisées à l’aide du critère
d’information d’Akaike (i.e. Akaike Information Criterion, AIC) qui pénalise les modèles en
fonction du nombre de paramètres afin de satisfaire le critère de parcimonie : le meilleur
modèle est celui avec le plus faible AIC. Ces deux approches peuvent être utilisées
conjointement dans la mesure où un nouveau modèle peut présenter un gain significatif de
log-vraisemblance et une augmentation du critère d’Akaike.
Les mesures précédentes peuvent être utilisées pour évaluer rétrospectivement les
modèles de l’analyse semi-automatisée. Le cas échéant, cela peut conduire à ne pas
identifier l’ultime modèle comme le plus pertinent. Il est également possible d’exclure
certaines interventions considérant que, si elles présentent un caractère vraisemblable
d’un point de vue numérique, leur contribution est limitée d’un point de vue explicatif. Il
est par ailleurs souhaitable, bien que pas indispensable, de pouvoir justifier les
interventions conservées dans le modèle. Inversement, une information exogène ne
correspondant à aucune des interventions conservées peut être utilisée pour suggérer un
nouveau changement.
Finalement, l’examen des résidus standardisés est également une source d’identification
de changement dans la série. En effet, comme ils sont supposés être distribués
indépendamment et identiquement selon une loi normale centrée réduite, la probabilité
pour un résidu d’être positif ou négatif est 0.5. Il s’ensuit que la probabilité d’avoir deux
résidus consécutif de même signe est 0.5² = 0.25, trois résidus consécutifs de même signe
0.5³ = 0.125, etc. La probabilité d’observer une séquence de 7 valeurs consécutives du
même signe est de 0.0078125 soit 0.78 %. Ainsi en référence à l’outil « Boîte à
moustache », une séquence de 7 résidus consécutifs de même signe présente un caractère
exceptionnel qui témoigne d’une inadaptation locale du modèle aux données et peut être
un indice d’un changement de niveau. Plus les valeurs de la séquence sont éloignées de 0
en valeur absolue, plus la probabilité d’un changement de niveau est élevée. Le ou les
changements envisagés peuvent être suggérés au modèle et leurs vraisemblances
numériques évaluées. Si les changements suggérés apparaissent pertinents, alors il est très
souhaitable de pouvoir les relier explicitement à des informations exogènes.
Représentations et expressions de la variance d’observation
Lorsqu’un modèle est considéré comme final, la question du caractère vraisemblable de sa
valeur estimée de la variance d’observation peut être posée. Mais d’une part, la variance
d’une distribution est une quantité abstraite, d’autre part, les modélisations réalisées
concernent une transformée logarithmique de la variable d’intérêt. Il y a donc lieu
d’effectuer un travail autour de l’expression et de la représentation de la variance
d’observation.
Page 65 sur 71
À chaque instant t de la série temporelle, le DLM fournit la moyenne et la variance de
la distribution normale de la variable d’intérêt modélisée. Pour la chlorophylle a, cette
dernière est le logarithme des concentrations. L’exponentielle de la moyenne du
logarithme de la concentration n’est pas la moyenne de la concentration mais la médiane
de la concentration. Les moyennes et les variances des distributions log-normales des
concentrations peuvent être obtenues à partir des formules suivantes :
Si Y =ln( X ) alors
E ( X )=e E (Y )+V (Y )/2
V ( X )=e 2 E ( y) (e 2 V (Y )−e V (Y ) )
avec E(X) et V(X), respectivement, la moyenne et la variance de X. Le graphique de ces
variances en fonction des moyennes est une courbe quadratique typique des lois
log-normales. Ce résultat est induit par la transformation logarithmique utilisée. Pour la
même raison, la figure des logarithmes décimaux des variances en fonction des logarithmes
décimaux des moyennes représente une droite dont la pente est très proche de 2. Ce
résultat mécanique mis à part, l’ordonnée à l’origine est la seconde caractéristique de la
droite. Elle peut être comparée à une valeur de référence. Brown et al. (1998) ont calculé
les paramètres d’une telle droite à partir de mesures de chlorophylle a réalisées dans 209
lacs de Floride durant au moins un an à raison de 11 à 13 mesures par an. C’est une
référence à laquelle on peut comparer les droites obtenues avec les résultats des modèles.
Pour les comptages phytoplanctoniques, la variable d’intérêt est le logarithme décimal des
abondances. Comme c’est l’unité adaptée de représentation de ces quantités, les
considérations précédentes concernant la chlorophylle a ne s’appliquent pas.
Une seconde représentation pour appréhender la variabilité pour la chlorophylle a consiste
à porter en abscisse les médianes des distributions des concentrations (i.e. les
exponentielles des moyennes des logarithmes des concentrations), en ordonnée les valeurs
observées et d’ajouter les enveloppes de confiance des observations et de la médiane. La
surface définie par l’enveloppe de confiance des observations est une expression de la
variabilité totale des mesures. La surface délimitée par l’enveloppe de confiance de la
médiane est une expression de la variabilité liée à l’évolution de la somme de la tendance
et de la saisonnalité. Le même type de représentation peut être réalisé pour les
logarithmes décimaux des abondances phytoplanctoniques, les moyennes des distributions
se substituant aux médianes.
Ainsi dans la variabilité totale, une part concerne l’évolution structurelle, i.e. la somme de
la saisonnalité et de la tendance. Cette part peut être exprimée par le rapport de
l’étendue de l’intervalle de confiance de la médiane de la concentration en chlorophylle a
à celui des observations, rapport qui peut également prendre la forme d’un pourcentage.
Le pourcentage complémentaire concerne la surface entre l’enveloppe de confiance des
médianes et celui des observations. Dans le cadre de la question sur les incertitudes, c’est
cette dernière qui est l’objet d’intérêt et c’est celle qui est estimée par la variance
d’observation vue précédemment. Ces pourcentages constituent une autre forme de
représentation des variabilités.
Une dernière expression de la variabilité consiste à définir la précision en pourcentage de
la mesure effectuée. Typiquement, la mesure X réalisée à la précision P % signifie que
l’intervalle de confiance à 95 % de la mesure X est [X-X.P/100 ; X+X.P/100] (Aminot and
Kérouel, 2004). Ainsi, l’intervalle de confiance à 95 % d’une valeur permet de calculer les
distances aux bornes en pourcentages de la valeur. Ces pourcentages à la borne supérieure
et à la borne inférieure sont les mêmes pour les distributions symétriques (e.g.
gaussiennes) mais sont différents pour les distributions asymétriques (e.g. log-normales).
Ces calculs peuvent être réalisés avec les intervalles de confiance des observations. Mais
comme précédemment, c’est l’écart entre l’enveloppe de confiance des observations et
Page 66 sur 71
celle de la médiane qui témoigne de la variabilité du processus d’observation. Rapporté à
la médiane, il constitue la part non-structurelle de la précision.
Les approches développées dans les deux derniers paragraphes sont applicables aussi bien
à la chlorophylle a en µg/L qu’à l’abondance en log10 cell./L. Toutefois, dans ce dernier
cas, les représentations seront également faites en cell./L, unité plus familière aux
experts des comptages phytoplanctoniques.
Page 67 sur 71