Modèles tarifaires robustes en assurance
Modèles tarifaires robustes en assurance
________________________________
________________________________
Directeur de mémoire en entreprise :
Membres présents du jury du Centre d’Etudes
Nom : _____________________________________
Doan-Trang NGUYEN TUAN
Actuarielles :
Signature :
__________________________________
__________________________________ Invité :
Nom : _____________________________________
__________________________________
Signature :
__________________________________
Secrétariat :
Signature(s) du candidat(s)
Bibliothèque :
ii
Résumé
L’objectif de ce mémoire est de tirer profit des outils d’apprentissage statistique pour la
construction de modèles tarifaires techniques qui soient à la fois robustes et interpré-
tables. Notre démarche consiste à comparer une méthode classique et une méthode ori-
ginale automatisée en couvrant toutes les étapes de construction d’un modèle technique,
depuis la sélection des variables à la mesure de performance. Ces deux approches sont
illustrées par une application pour modéliser la fréquence de la garantie dégâts des eaux
(DDE) de l’offre multirisque professionnelle chez AXA France. Cette étude montre que
ces techniques de machine learning apportent des bénéfices certains en termes de per-
formance et de vélocité, l’expertise métier et le regard critique de l’actuaire restent néan-
moins cruciaux pour répondre aux critères de transparence, de robustesse et d’applicabi-
lité opérationnelle.
Mots-clé multirisque professionnelle, garantie dégâts des eaux, modèles linéaires gé-
néralisés, gradient boosting, LASSO, automatisation, prime pure, modèle technique tari-
faire, apprentissage statistique, machine learning, sélection de variables, interprétabilité,
robustesse
Abstract
The purpose of this dissertation is to take advantage of machine learning tools for the
construction of robust and interpretable technical pricing models. Our approach con-
sists in comparing a classical method and an automated original method by covering all
the stages of construction of a technical model, from the features selection to the perfor-
mance measurement. These two approaches are illustrated by an application to model
the frequency of the water damage cover of the MRP offer at AXA France. This study shows
that these machine learning techniques bring definite benefits in terms of performance
and velocity. However, the business expertise and actuary’s critical outlook remain crucial
to meet the criteria of transparency, robustness and operational applicability.
Keywords MRP, water damage cover, generalized linear models, gradient boosting,
LASSO, automation, pure premium, technical pricing model, statistical learning, machine
learning, variable selection, interpretability, robustness
iv
Note de synthèse
L’objectif de ce mémoire est de tirer profit des outils d’apprentissage statistique pour la
construction de modèles tarifaires techniques qui soient à la fois robustes et interpréta-
bles. Notre démarche consiste à comparer une méthode classique et une méthode origi-
nale (qui fait l’objet du développement d’un outil de production automatisée de modèle
chez AXA Global P&C) en couvrant toutes les étapes de construction d’un modèle tech-
nique, depuis la sélection des variables à la mesure de performance. Ces deux approches
sont illustrées par une application pour le modèle de fréquence de la garantie dégâts des
eaux (DDE) de l’offre multirisque professionnelle chez AXA France, qui permet de prédire
le nombre de sinistres annuel.
La volumétrie croissante des données traitées impose de recourir à des outils toujours
plus performants afin de produire des résultats en un temps raisonnable. En particulier,
les procédures de sélection de variables classiques, qui parcourent souvent de manière
quasi-exhaustive l’ensemble des combinaisons possibles, sont consommatrices de temps
de calcul considérables. En réponse à cette problématique, l’apprentissage statistique of-
fre des alternatives efficaces, notamment avec les méthodes ensemblistes comme le gra-
dient boosting, qui sont populaires pour leur vélocité et leur capacité à traiter des don-
nées plus volumineuses. On leur reproche toutefois une certaine opacité qui compromet
l’interprétabilité et donc l’auditabilité des modèles produits (notamment par le régula-
teur et la direction de gestion des risques).
Notre revue de la littérature actuarielle récente révèle aussi que, dans le cadre de pro-
v
jets de tarification non-vie, les techniques d’apprentissage statistique sont directement
utilisées pour produire les modèles finaux, qui sont alors comparés à un GLM standard.
Notre approche se distingue de ces travaux publiés de par son objectif de coupler le
GLM et des méthodes d’apprentissage statistique : nous présentons dans ce mémoire
deux approches qui aboutiront in fine à un modèle de type GLM. Conserver ainsi une
structure (pseudo-)linéaire permet de garantir la lisibilité du modèle et de faciliter l’implémentation
informatique pour la mise en production ; l’usage de procédures issues de l’apprentissage
statistique apportent notamment une aide à la décision dans la sélection de variables tout
en palliant aux problématiques computationnelles inhérentes à cette étape.
Les produits d’assurance des particuliers étant devenus une commodité du fait d’un
marché très concurrentiel, de plus en plus d’acteurs ont désormais comme cible stratégique
les clients professionnels. AXA, leader du marché MRP en France, voit ses clients et prospects
de plus en plus courtisés par la concurrence : acquérir la vision la plus juste du risque
grâce à une segmentation fine et une sophistication des modèles constitue donc un enjeu
stratégique pour elle.
Un autre enjeu majeur pour AXA France est celui du pilotage technique des porte-
feuilles IARD à l’aide du rapport sinistre à prime espéré ou expected loss ratio (ELR), cal-
culé comme le rapport de la prime pure estimée à la prime actuelle payée, qui reflète
la rentabilité technique annuelle estimée de façon individuelle et qui pourra être utilisé
pour moduler la prime commerciale lors des renouvellements tarifaires annuels des con-
trats en portefeuille.
Les données du portefeuille d’étude sur lesquelles est basée la mise en oeuvre pratique
des deux approches méthodologiques évoquées précédemment sont construites à partir
de données internes et externes. Les principales catégories de variables qui existent pour
caractériser le risque MRP sont: les caractéristiques liées à l’assuré, les caractéristiques
liées au local professionnel, les caractéristiques liées à l’entreprise, les informations géo-
graphiques ainsi que la sinistralité du client y compris sur ses autres contrats dommages.
Ces données requièrent divers traitements nécessaires à leur bonne exploitation au
sein des futurs modèles : présélection des facteurs de risque, encodage des variables qual-
itatives etc.
Après avoir traité les données pour qu’elles soient exploitables, puis les avoir explorées
au travers d’une analyse descriptive, on met en œuvre le processus de modélisation.
En général, il est initié par l’étape de sélection de variables, cruciale car nous disposons
d’une quantité très importante de variables. Les méthodes issues de l’apprentissage statis-
tique comme le gradient boosting machine (GBM) ou les forêts aléatoires ont le vent en
poupe notamment pour la sélection de variables car elles sont applicables sur un grand
nombre de variables avec un temps de calcul acceptable. Ainsi, le GBM est utilisé dans
les deux méthodes présentées dans ce mémoire, à la différence près que la méthode alter-
native fait précéder cette procédure d’une régression pénalisée de type LASSO qui a pour
double objectif de pré-sélectionner les variables catégorielles et d’effectuer des regroupe-
ments automatiques de modalités pour celles-ci.
L’étape suivante consiste à bâtir le modèle final et les deux approches diffèrent nettement.
L’approche traditionnelle utilise les variables les plus influentes issues du GBM comme
régresseurs dans un GLM ; tandis que la méthode alternative transforme directement
le GBM en structure linéaire.
vi
Une étape de simplification est ensuite généralement mise en œuvre : elle consiste
à grouper des modalités pour les variables catégorielles et à effectuer des opérations de
lissage pour les variables numériques. Elle permet de réduire le nombre de paramètres
du modèle à estimer et ainsi de diminuer le risque de sur-apprentissage.
La figure 1 permet de visualiser les étapes réalisées dans cette étude afin de mener le
processus de modélisation tarifaire technique selon chaque approche.
L’application sur la fréquence de dégâts des eaux MRP résulte en un modèle qui compte
six variables et vingt-huit paramètres dans l’approche classique contre quarante-six ré-
gresseurs et huit cent quarante-quatre paramètres dans l’approche innovante automa-
tique. Le modèle issu de la méthode innovante offre une performance supérieure à l’approche
classique : il permet une meilleure segmentation et une meilleure précision sur les don-
vii
nées d’étude (2012 à 2014) mais pas sur l’année complète suivante (2015).
L’actuaire peut obtenir un modèle bien plus parcimonieux avec la méthode alterna-
tive en diminuant arbitrairement la part d’importance cumulée requise pour la sélection
de variables. Par exemple, il suffit de conserver les dix variables les plus importantes pour
réduire de plus de moitié le nombre de paramètres: le modèle inclut alors l’ensemble
des six variables retenues dans le modèle issu de l’approche classique et offre une perfor-
mance plus qu’honorable en matière de tri par rapport à l’approche innovante originale,
et toujours bien au-dessus de celle du modèle traditionnel. Ce modèle parcimonieux perd
légèrement en précision sur les données d’étude mais en gagne sur l’année suivante.
Une fois les données exploitables et l’ensemble des outils programmés et maîtrisés,
quelques heures à une journée suffisent à l’actuaire tarificateur pour obtenir le modèle
final avec l’approche innovante automatisée, ce qui représente un atout certain au vu du
temps libéré pour l’analyse, tandis que cinq à sept jours sont requis pour une modélisa-
tion classique.
L’approche classique bénéficie d’un gain de temps important sur l’étape de sélection
de variables grâce au gradient boosting, mais les nombreuses itérations manuelles néces-
saires par la suite sont chronophages même si elles permettent, dans le cadre de notre
portefeuille d’étude, de bâtir un modèle performant, très parcimonieux et où l’interprétabilité
est assurée par un regard métier tout au long du processus.
Néanmoins, le besoin de faire appel à des outils automatiques se fait de plus en plus
sentir dans les équipes d’actuariat produit au vu du nombre grandissant de modèles util-
isés et de la fréquence à laquelle ils doivent être mis à jour. L’approche innovante répond
à ce besoin en permettant un gain de temps considérable grâce une procédure quasi-
automatisée. L’actuaire doit néanmoins porter un regard critique sur le modèle obtenu et
contraindre le nombre de variables qu’il contient, car sa parcimonie et son interprétabil-
ité peuvent, à ce stade, s’avérer décevantes sans intervention de l’utilisateur.
viii
Executive summary
The purpose of this dissertation is to take advantage of machine learning tools for the
construction of technical pricing models that are both robust and interpretable. Our ap-
proach consists in comparing a classical method and an original method (on which has
been developed an automated model production tool by AXA Global P&C) covering all
the stages of construction of a technical model, from the variable selection to the per-
formance measure. These two approaches are illustrated by an application for the Water
Damage cover frequency model of AXA France’s “MRP” offer, which is used to predict the
annual number of claims.
The first step in the non-life insurance contract pricing process is to estimate the ex-
pected future claims cost of a contract, called pure premium: this is the product of the
expected number of claims and the expected claim cost. These two components are mod-
eled independently by the actuaries, traditionally using generalized linear models (GLM).
Today, machine learning techniques often outperform classical GLMs.
The GLM parametric framework is particularly popular within the actuarial profes-
sion, as it offers easily interpretable results and quantifies the impact of each explanatory
variable on the response variable. The existence of distributions particularly adapted to
the nature of the modeled data encourages the use of these models, and also justifies the
frequency / cost distinction: counting data for the frequency, continuous data for the cost.
Another advantage of GLMs is the partial taking into account of non-linear effects
through the link function, which transforms the initially linear dependence structure be-
tween the response variable and the regressors.
The increasing volume of data processed requires the use of ever more powerful tools
to produce results in a reasonable time. In particular, the standard procedures for se-
lecting variables, which often run almost exhaustively across all possible combinations,
consume considerable computing time. To address this problem, machine learning offers
effective alternatives. In particular, ensemble methods such as gradient boosting, made
popular due to their velocity and their ability to process larger amounts of data. However,
they are criticized for their opacity, which compromises the interpretability and therefore
the auditability of the models produced (notably by the regulator and the risk manage-
ment department).
Our review of the recent actuarial literature published by the French Institute of Ac-
tuaries (IA) also reveals that, in non-life rating projects, machine learning techniques are
directly used to produce the final models, which are then often compared to a standard
GLM.
Our approach differs from these works by its objective of coupling GLM and machine
learning methods: we present in this paper two methods which will lead in fine to a GLM-
ix
type model. Maintaining a (pseudo-)linear structure makes it possible to guarantee the
legibility of the model and the use of the machine learning procedures, provides support
in variables selection while overcoming the computational problems inherent in this step.
The study portfolio data on which the practical implementation of the two method-
ological approaches mentioned above is based on internal and external data. The main
categories of variables that exist to characterize the MRP risk are the characteristics re-
lated to the policyholder, the characteristics related to the business premises, the charac-
teristics related to the company, the geographical information as well as the claims expe-
rience of the customer including related to his other damage contracts.
This data requires various treatments necessary for good exploitation in future mod-
els: pre-selection of risk factors, encoding of qualitative variables, etc.
After having processed the data so that it can be exploited, then having explored it
through a descriptive analysis, we implement the modeling process.
In general, it is initiated by the variable selection step, which is crucial because we have a
very large quantity of variables. Methods derived from machine learning such as the gra-
dient boosting machine (GBM) or random forests are particularly popular for the feature
selection because they are applicable to a large number of variables with an acceptable
calculation time. Thus, the GBM is used in the two methods presented in this paper, with
the difference that the alternative method precedes this procedure with a penalized re-
gression of the LASSO type which has the dual purpose of pre-selecting the categorical
variables and make automatic groupings of their levels.
The next step is to build the final model and the two approaches differ significantly.
The traditional approach uses the most important variables from the GBM as re-
gressors in a GLM; while the alternative method directly transforms the GBM into a
linear structure.
A step of simplification is then generally run: it consists of grouping levels for the
categorical variables and performing smoothing operations for the numeric variables. It
makes it possible to reduce the number of parameters of the model to be estimated and
thus to reduce the risk of overfitting.
x
dictions to average observations for each of the levels. We measure the marginal contri-
bution of each variable to the performance of the GLM model (quantified by the Gini
index) and we make sure that it is sufficient to remain in the final model.
The lift curve is an additional validation tool that makes it possible to compare the
predicted values with the observed values, and this, by segment of increasing predictions.
The figure 1 allows to visualize the steps realized in this study in order to follow the
process of technical pricing modeling according to each approach.
The application on the MRP water damage frequency results in a model with six vari-
ables and twenty-eight parameters from the classical method versus forty-six regressors
and eight hundred and forty-four parameters in the model derived from the automated
innovative approach. The model derived from the innovative method offers a perfor-
mance superior to the traditional approach: it allows a better segmentation and a better
precision on the study data (train and test data, from 2012 to 2014) but not on the follow-
ing complete year data set (2015).
The actuary can get a much more parsimonious model with the alternative method
by arbitrarily decreasing the cumulative importance portion required for variable selec-
tion. For example, it is enough to keep the ten most important variables to reduce by
more than half the number of parameters, and almost divide the number of regressors by
five : the model includes all six variables retained in the model derived from the classic
approach and offers a performance that is more than respectable in terms of sorting and
segmentation compared to the original innovative approach, but still well above that of
the traditional model. With this more parsimonious variant of the innovative approach,
the model loses slightly in precision on the study data but gains some in the following year.
Once the data is usable and all the tools programmed and mastered, a few hours to a
day are enough for the pricing actuary to obtain the final model with the innovative auto-
xi
mated approach, which is a definite asset in view of the time released for analysis, while
five to seven days are required for classical modeling.
Two added value operational uses of the innovative method have already been identi-
fied for the team: prototyping and the ability to quickly challenge existing models.
The classical approach benefits from a significant time saving on the variable selection
stage thanks to the gradient boosting, but the many manual iterations necessary there-
after are time-consuming even if they allow, within the framework of our study portfolio,
to build a powerful model, very parsimonious and where the interpretability is ensured
by a professional overview throughout the process.
Nevertheless, the need for automated tools is increasingly being felt by the actuarial
teams as a result of the growing number of models used and the frequency with which
they must be updated. The innovative approach responds to this need by allowing con-
siderable time savings thanks to a quasi-automated procedure. The actuary must never-
theless take a critical look at the model obtained and constrain the number of variables
it contains, because its parsimony and interpretability are disappointing without user in-
tervention.
In the end, the use of machine learning tools brings some benefits in terms of per-
formance and speed, but the business expertise and the opinion of the actuary are still
crucial to meet the criteria of transparency, robustness and operational applicability.
xii
Remerciements
Je remercie mon responsable Philippe LECOMTE qui m’a permis de suivre la forma-
tion du Centre d’Etudes Actuarielles.
Je tiens à remercier aussi Zhen LI, Data Scientist chez AXA Global P&C, qui est l’auteur
principal de cet outil innovant et avec lequel j’ai pu échangé à tout moment sur mes ques-
tions techniques.
Enfin, aucun mot ne peut exprimer ma reconnaissance à mon épouse pour son sou-
tien inconditionnel et sur qui nos deux bébés ont pu compter pendant mes innombrables
heures consacrées à la préparation des examens du CEA et à l’élaboration de ce mémoire.
xiii
xiv
Sommaire
Introduction 1
1 Contexte et objectif 3
1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 L’assurance multirisque professionnelle chez AXA . . . . . . . . . . . 3
1.1.2 La sinistralité par garantie . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3 Généralités sur la tarification . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Etat de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Enjeux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Portefeuille d’étude 11
2.1 Construction de la base de données . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Traitement des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Nettoyage de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Création ou transformation de variables . . . . . . . . . . . . . . . . . 14
2.3 Statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1 Variable à modéliser: le nombre de sinistres . . . . . . . . . . . . . . . 15
2.3.2 Quelques statistiques sur les variables classiques . . . . . . . . . . . . 15
Conclusion et perspectives 61
A Annexes I
C Bibliographie V
xv
SOMMAIRE
xvi
Introduction
Les travaux présentés dans ce mémoire s’inscrivent dans le cadre du projet de création
d’une nouvelle offre multirisque professionnelle chez AXA France, qui requiert une re-
fonte complète du tarif. Cela conduit à se demander comment mettre à profit les outils
d’apprentissage statistique sous la contrainte d’obtenir au final un modèle technique tar-
ifaire qui soit à la fois robuste et interprétable. Ce double objectif permet de garder à
l’esprit que l’on doit aboutir in fine à une solution opérationnelle et industrialisable.
La pertinence de cette problématique s’est d’ailleurs confirmée au cours des travaux
préparatoires de la présente étude, au croisement de l’actuariat non-vie traditionnel et de
la data science : notre approche se distingue des travaux actuariels récents de par son ob-
jectif de coupler le modèle linéaire généralisé et les méthodes d’apprentissage statistique
afin de conserver la lisibilité du modèle tout en bénéficiant de la vélocité et de la capac-
ité à traiter des données plus volumineuses, mais aussi de la performance accrue de ces
algorithmes qui ont le vent en poupe. L’intensification de la concurrence sur la cible des
professionnels confère un caractère stratégique à l’acquisition de la vision la plus juste
du risque inhérent à ce produit grâce à une segmentation fine et à une sophistication des
modèles tarifaires.
On souhaite par exemple répondre à une série d’interrogations inhérentes au sujet :
opter pour un modèle linéaire généralisé in fine nuit-il à la performance permise par le
machine learning? Que vaut une approche innovante automatisée?
Notre démarche consiste à comparer une méthode classique et une méthode orig-
inale en couvrant toutes les étapes de construction d’un modèle technique, depuis la
sélection des variables à la mesure de performance. Intitulé "Tarif multirisque profes-
sionnelle: construction de modèles robustes et interprétables", ce mémoire tend ainsi
à démontrer que même si l’utilisation de l’apprentissage statistique apporte des béné-
fices certains en termes de performance et de rapidité, l’expertise métier et l’opinion de
l’actuaire restent néanmoins cruciales pour répondre aux critères d’interprétabilité, de
robustesse et d’applicabilité opérationnelle : on peut alors tout à fait bénéficier des atouts
offerts par ces algorithmes modernes en se contraignant à aboutir in fine à un modèle
linéaire généralisé qui soit robuste.
L’approche traditionnelle d’exploitation des méthodes d’apprentissage statistique con-
siste à mettre en œuvre un algorithme de gradient boosting pour la sélection des variables,
puis à intégrer les variables sélectionnées dans une régression classique de type modèle
linéaire généralisé (GLM). L’interprétabilité est ainsi assurée par la forme du GLM, priv-
ilégiée par les actuaires non-vie (il permet, entre autres, de quantifier l’impact de chaque
variable explicative sur la réponse), mais un processus itératif et manuel doit ensuite être
mis en oeuvre afin de s’assurer de la robustesse du modèle GLM final à retenir. Cette
méthode offre un gain de temps considérable sur l’étape de sélection de variables, mais
les nombreuses itérations manuelles nécessaires par la suite restent chronophages, même
si elles permettent, dans le cadre de notre portefeuille d’étude, de bâtir un modèle perfor-
mant, très parcimonieux et où la lisibilité est aussi assurée par un regard métier présent
1
SOMMAIRE
2
Chapitre 1
Contexte et objectif
1.1 Contexte
1.1.1 L’assurance multirisque professionnelle chez AXA
La multirisque professionnelle (MRP) est un produit d’assurance qui permet une couver-
ture complète tant pour les biens que pour les responsabilités de l’entreprise. Ce produit
permet d’offrir aux travailleurs non salariés (TNS) (artisans, commerçants, professions
libérales) et très petites entreprises (TPE) une protection complète couvrant au sein d’un
même contrat les dommages aux biens de l’entreprise (locaux, matériel. . . ), sa respons-
abilité civile et sa perte d’exploitation.
Chez Axa France, le produit MRP est destiné aux entreprises ayant un chiffre d’affaires
inférieur ou égal à cinq millions d’euros, comptant jusqu’à quinze salariés et ne dépassant
pas trois mille mètres carrés de surface, au-delà d’un de ces critères c’est auprès d’Axa
IARD Entreprises que la solution sera proposée. Néanmoins, le bas de segment ciblé par
cette entité, les petites et moyennes entreprises (PME), sera adressé à travers le produit
"Multi-PME" qui partage la structure tarifaire de la MRP tandis que les autres segments
seront couverts par l’offre de multirisque entreprise (MRE).
Deux principales formules caractérisent l’offre MRP d’AXA France:
• une formule « Carte » qui permet à l’assuré de choisir des garanties individuelles à
la carte en fonction de ses besoins de couverture, à partir d’un socle de base.
• une formule packagée, dite « Spéciale » : chacune des offres spéciales est bâtie spéci-
fiquement pour une activité professionnelle précise afin de couvrir tous les risques
auxquels elle est exposée.
Le contrat MRP couvre les biens et responsabilités d’une entreprise à travers trois
types de garanties: les garanties dommages (incendie, dommages électriques, dégâts des
3
CHAPITRE 1. CONTEXTE ET OBJECTIF
eaux, bris de glace, vol. . . ), les garanties financières (pertes d’exploitation et perte de
valeur vénale), et la garantie responsabilité civile professionnelle. La section suivante
qualifie chacun de ces principaux risques au regard de sa sinistralité observée entre 2012
et 2014.
• les sinistres incendie pèsent un tiers de la charge totale mais seulement 7% en nom-
bre: ils incluent en fait l’essentiel des sinistres graves;
• à l’inverse, les sinistres de type bris des glaces pèsent 16% en nombre, mais seule-
ment 5% de la charge totale;
• un tiers des sinistres sont de type dégâts des eaux (DDE): il s’agit de la nature de
sinistre la plus fréquente en MRP. Ils pèsent près d’un cinquième de la charge totale.
4
CHAPITRE 1. CONTEXTE ET OBJECTIF
Segmentation
Modèle collectif
Ni
X
Si = Wi ,k (1.1)
k=1
Au-delà du fait qu’on modélise des risques non-vie, les arguments en faveur de cette
distinction entre fréquence et sévérité sont multiples. Tout d’abord, il n’y a pas de raison
particulière de penser que les déterminants de la fréquence et du coût des sinistres soient
les mêmes. Ensuite, la fréquence présente empiriquement un comportement beaucoup
plus stable que le coût, et le lien entre les facteurs de risque et la fréquence est générale-
ment davantage matériel. Il est donc recommandable de valoriser cette robustesse na-
turelle du modèle de fréquence, et de considérer la problématique de coût indépendam-
ment.
La tarification prime pure consiste à estimer la charge future espérée d’un contrat. On
passe donc l’équation précédente (1.1) à l’espérance:
5
CHAPITRE 1. CONTEXTE ET OBJECTIF
" # " Ã ¯ !#
Ni Ni ¯
E(S i ) = E =E E
X X
Wi ,k Wi ,k ¯Ni
¯
k=1 k=1
¯
= E [E (Ni Wi |Ni )] car (Wi ,k ) i.i.d.
= E [Ni E (Wi |Ni )]
= E [Ni E (Wi )] par indépendance de Wi et Ni
= E (Ni ) E (Wi )
La charge espérée de l’assuré i est donc égale au produit des espérances du nombre
de sinistres et du coût de sinistre. Rapportée à la durée d’exposition t i , elle constitue la
prime pure qui résulte du produit des deux composantes:
E(S i )
prime pure = fréquence × coût =
ti
nombre de sinistres E(Ni )
fréquence = =
exposition ti
charge de sinistres totale E(S i )
coût moyen = =
nombre de sinistres E(Ni )
L’exposition désigne la durée durant laquelle le risque est couvert, on parle aussi de
nombre d’années-police. Par exemple, un contrat souscrit le 1er juillet de l’année N et
toujours en cours au 31 décembre N a une exposition égale à 0, 5 année-police. Si un sin-
istre survenait sur ce contrat au cours de cette demi-année, on aurait donc schématique-
ment une fréquence observée de 200% car la fréquence est une moyenne annualisée: 1
sinistre sur une demi-année équivaut, en termes de risque, à en moyenne 2 sinistres par
an.
On a vu que la prime pure était classiquement composée des deux composantes fréquence
et sévérité qui sont alors modélisées indépendamment. Depuis une trentaine d’années,
les actuaires font appel aux generalized linear model ou modèle linéaire généralisé (GLM)
pour les modéliser mais des techniques de machine learning ou apprentissage automa-
tique/statistique (ML) issues de l’informatique statistique qui promettent des performances
accrues viennent désormais les concurrencer: on propose de passer en revue la littérature
actuarielle récente qui fait appel à l’apprentissage statistique dans le cadre de projets de
tarification non-vie.
6
CHAPITRE 1. CONTEXTE ET OBJECTIF
PAGLIA [2010] compare lui aussi le GLM à l’algorithme CART qu’il modifie pour tenir
compte de la période d’exposition de l’assuré.
On rappelle précisément les hypothèses et concepts qui sous-tendent le ML dans la
sous-section 3.1.2.
G UILLOT [2015], lui, couvre un spectre plus étendu de la tarification non-vie à l’aide
d’outils de ML, puisque non seulement il compare le GLM avec un GLM étendu par des
splines, avec aussi un modèle additif généralisé ou generalized additive model (GAM)
et enfin avec une RF pour la modélisation des effets non linéaires; mais il met en œu-
vre aussi la méthode de pénalisation Least Absolute Shrinkage and Selection Operator
(LASSO) pour la sélection de variables et exploite une méthode de prise en compte in-
trinsèque d’interactions via une nouvelle forêt aléatoire.
G UILLOT [2015] liste aussi les avantages et limites des modèles GLM. Ces derniers
s’appuient sur une hypothèse de loi de probabilité pour estimer l’espérance de la sinistral-
ité. Ce cadre paramétrique est particulièrement populaire au sein de la profession actu-
arielle, puisqu’il offre des résultats facilement interprétables et qu’il permet de quantifier
l’impact de chaque variable explicative sur la variable réponse. L’existence de distribu-
tions particulièrement adaptées à la nature des données modélisées encourage l’usage de
ces modèles, et justifie également la distinction fréquence/coût : des données de comp-
tage pour la fréquence, des données continues pour le coût. Le principal avantage des
GLM par rapport aux régressions linéaires classiques est la prise en compte partielle d’effets
non linéaires à travers la fonction de lien, qui transforme la structure de dépendance ini-
tialement linéaire entre la variable réponse et les régresseurs. Celle-ci correspond générale-
ment à la fonction logarithmique en tarification non-vie, comme nous le verrons en page 29
dans la rubrique qui définit précisément les GLM. Cette fonction présente notamment la
spécificité d’être strictement monotone, ce qui implique que l’effet modélisé d’un pré-
dicteur donné sur la variable à prédire est systématiquement de signe constant. Cette
particularité ne permet donc pas de modéliser fidèlement, par exemple, les phénomènes
suivants :
• des impacts de signe contraire aux deux extrémités du domaine de définition d’un
certain régresseur (effets d’extrêmes)
Aussi, un modèle GLM offre en réalité une modélisation pseudo-linéaire, ce qui limite
fortement le pouvoir explicatif du modèle.
G UILLOT [2015] rappelle aussi certaines difficultés complémentaires rencontrées en
tarification non-vie.
Premièrement, l’exposition de chaque contrat au sein du portefeuille considéré im-
pacte la probabilité de survenance d’un sinistre: elle doit donc être intégrée au sein de
la modélisation. Il ne s’agit pas de pondérer simplement les observations en fonction de
leur exposition, ce qui introduirait un biais en faveur des contrats les plus exposés, mais
bien d’inclure cette variable au sein même de l’écriture de l’estimateur pour les GLM (cf
page 30). Le lecteur intéressé trouvera des détails supplémentaires sur ces techniques
chez PAGLIA [2010] ou C HARPENTIER [2013].
7
CHAPITRE 1. CONTEXTE ET OBJECTIF
1.3 Objectif
Les travaux présentés dans ce mémoire s’inscrivent dans le cadre du projet de création
d’une nouvelle offre MRP chez AXA France, qui motive une refonte complète du tarif. Il a
été décidé de construire un modèle de prime pure par garantie sous condition que le vol-
ume de données soit suffisant. Chacun de ces modèles résulte en fait de la combinaison
d’un modèle de fréquence et d’un modèle de coût.
En assurance multirisque professionnelle, le nombre de sinistres mérite une attention
toute particulière là où le coût des sinistres n’est habituellement pas sujet à une classifi-
cation aboutie. L’analyse des coûts de sinistres est sensiblement plus complexe que celle
de la fréquence. Là où tous les individus sont utilisés pour la modélisation du nombre
de sinistres, l’on comprend que seuls les contrats sinistrés doivent être considérés lors de
8
CHAPITRE 1. CONTEXTE ET OBJECTIF
l’estimation du coût moyen, ce qui limite le nombre d’observations. De plus, le coût des
sinistres est expliqué par des données exogènes bien au-delà de la base de données, c’est
pourquoi on a choisi d’illustrer les méthodes présentées dans ce mémoire avec un modèle
de fréquence. Néanmoins, la démarche de modélisation reste tout à fait similaire pour la
fréquence et la sévérité ; on prend comme données d’application le risque qui représente
le plus grand volume de sinistres en MRP: celui des DDE.
Notre approche se distingue des travaux actuariels cités ci-dessus de par son objectif
de coupler le GLM et les méthodes d’apprentissage statistique afin de conserver la lisi-
bilité du modèle et d’éviter l’aspect « boîte noire » de ces outils. On souhaite conserver
la structure des GLM essentiellement pour leur interprétabilité car l’actuaire tarificateur
doit pouvoir échanger de façon transparente sur le contenu des modèles avec différents
interlocuteurs comme sa hiérarchie, les agents généraux, les équipes CRM, la direction
de gestion des risques ; ce souci de la transparence est aussi crucial vis-à-vis du régula-
teur, ainsi que pour l’audit des modèles. L’utilisation des outils de ML est justifiée pour
leur vélocité, leur capacité à traiter des données plus volumineuses et leur performance
accrue. On devra être d’autant plus vigilant quant à la robustesse des modèles car leur
utilisation est au cœur d’enjeux stratégiques pour AXA France.
1.4 Enjeux
Les acteurs du marché de l’assurance non-vie se livrent une concurrence acharnée sur
les produits automobile et habitation, les durations raccourcissent avec la loi Hamon
qui facilite les résiliations et changements d’assureur, les marges fondent, ce qui rend
l’équilibre technique plus délicat à préserver. Les produits particuliers étant devenus une
commodité, de plus en plus d’acteurs ont désormais comme cible stratégique les clients
professionnels. Ainsi, on assiste ces dernières années à l’arrivée de nouveaux entrants
sur le marché de la MRP (en particulier les bancassureurs) et à une intensification de
campagnes publicitaires et d’efforts commerciaux pour conquérir cette clientèle. AXA,
occupant la première place du podium du marché MRP en France, voit ses clients et
prospects de plus en plus courtisés par la concurrence: acquérir la vision la plus juste
du risque grâce à une segmentation fine et une sophistication des modèles est donc un
enjeu stratégique pour elle.
Par conséquent, nous allons intégrer beaucoup d’informations dont AXA dispose (même
si certaines ne seront pas disponibles à la souscription d’une affaire nouvelle). Cela inclut,
par exemple, la sinistralité du client sur ses contrats AXA habitation et automobile. Ces
modèles tarifaires techniques peuvent ensuite être utilisés pour calculer l’expected loss ra-
tio (ELR) de chaque contrat en portefeuille. Ce ratio sinistres à prime espéré étant défini
de la manière suivante :
9
CHAPITRE 1. CONTEXTE ET OBJECTIF
10
Chapitre 2
Portefeuille d’étude
L’objet principal de ce chapitre est de présenter les données du portefeuille d’étude sur
lesquelles est basée la mise en oeuvre pratique des deux approches méthodologiques évo-
quées précédemment.
On a bâti une base de données de taille satisfaisante inventoriant l’ensemble des con-
trats et sinistres relatifs à un portefeuille important, sur un large périmètre et un horizon
étendu. Ils doivent faire l’objet de plusieurs retraitements (statistiques ou non) néces-
saires à leur bonne exploitation au sein des futurs modèles : présélection des facteurs
de risque, encodage des variables qualitatives etc. Après la présentation du portefeuille
d’étude et de sa construction, la seconde partie de ce chapitre est dédiée à l’énumération
des différents traitements appliqués aux données; sa troisième et ultime partie présente
les résultats de quelques analyses descriptives permettant de se familiariser avec leur
structure.
• Client:
– contrat
– comportemental
– client
11
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE
• Sinistralité:
– déclarée au contrat
– du contrat AXA, par nature de sinistre (UP= unité de prestation)
– du client AXA
• Local professionnel
• Géographique
• Externe
Dates de vision des données Au-delà des trois années utilisées pour la modélisation
(2012 à 2014), on constitue pareillement la base relative à l’année 2015 qu’on utilise comme
base de test supplémentaire: on se place alors un an plus tard pour évaluer la robustesse
du modèle (on précise qu’aucune information de 2015 n’est utilisée dans la modélisa-
tion). Les contrats sont vus en fin d’année N et les images-contrats sont définies par la
date d’effet de l’affaire nouvelle et/ou celle du remplacement (de l’avenant) et/ou celle de
la résiliation. Les sinistres survenus en année N sont vus à fin mai de l’année N+2 afin de
ne pas omettre les tardifs pour le modèle de fréquence (ainsi que le coût final et réel de
chaque sinistre pour le modèle de sévérité).
Bases par garantie On a regroupé les différentes typologies de sinistres (ou unités de
prestation) sous douze garanties:
12
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE
• évènements climatiques
• dommages électriques
• vol et vandalisme
• bris de machine
• perte d’exploitation
Crédit de franchise Une franchise modulable est définie pour chaque contrat MRP avec
un mécanisme particulier propre à la stratégie d’AXA France pour la fidélisation de ses
clients MRP: après vingt-quatre mois sans sinistre, un crédit de franchise est octroyé.
Ce crédit est renouvelable automatiquement, ce qui signifie que vingt-quatre mois après
chaque sinistre survenu, un assuré MRP bénéficie à nouveau du crédit de franchise. On
souhaite modéliser le coût total du sinistre (sans se préoccuper du reste à charge de l’assuré),
ce qui laisse la liberté de proposer par la suite différents niveaux de franchise dans la fu-
ture offre MRP. A cet égard, on a extrait des bases d’opérations comptables sinistres la
franchise effectivement déduite lors du règlement afin de l’ajouter à la charge dossier/dossier
(à charge de l’assureur qui est nette de recours).
13
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE
• On se débarrasse des variables invariantes (elles n’ont qu’une modalité, et une valeur
manquante est considérée comme étant une modalité) et des variables catégorielles
à plus de 1024 modalités (limite du GBM dans R).
Dimension horizontale
• On ôte les lignes qui contiennent une exposition nulle ou bien les lignes avec sin-
istre(s) et un coût nul ou inférieur à cinq euros.
• On élimine les trois contrats qui ont eu cinq sinistres DDE sur un an ainsi que les
contrats groupements (qui ne font pas partie intégrante de la MRP, ou tout du moins
de la future offre).
• On écarte les contrats relatifs aux activités professionnelles pour lesquelles la garantie
est tarifée uniquement au cas par cas par les services de souscription/des engage-
ments d’AXA (risques sensibles).
• On crée des variables de comptage sur 12, 24 et 36 mois précédant l’année d’étude
pour:
• On bâtit des variables croisées entre les antécédents de sinistres (de différentes na-
tures) déclarés à la souscription (sur ving-quatre mois) et une variable indiquant si
la souscription ou le dernier avenant a eu lieu il y a moins de vingt-quatre mois. Elle
permet de distinguer les sinistres étant réellement survenus dans les vingt-quatre
mois précédant l’année d’étude de ceux ayant eu lieu il y a peut-être une décennie
car ces variables d’antécédents ne sont mises à jour qu’en cas de remplacement de
la police.
• On réconcilie par fusion les variables qui ont la même signification mais des noms
différents; il s’agit typiquement des variables techniques de la formule Carte qui
proviennent d’une table différente de celle des formules packagées (comme la Spé-
ciale).
14
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE
15
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE
(a) Fréquence moyenne observée selon (b) Fréquence moyenne observée selon
la surface du local le contenu assuré en DDE
(c) Fréquence moyenne observée selon (d) Fréquence moyenne observée selon
la qualité de l’assuré la zone actuelle
16
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE
phénomène se traduit d’une part, par le fait que plus un local est grand, plus le risque
DDE est important (de par la quantité assurable et le nombre de canalisations) et d’autre
part, que le capital assuré est probablement corrélé positivement à la surface (on le verra
plus loin). Le cas échéant, ce lien entre fréquence et capital pourrait alors être interprété
comme un indicateur de type comportemental: plus l’assuré se sent vulnérable, plus il va
avoir tendance à s’assurer pour un montant important.
La figure 2.3c, elle, fait apparaître que les assurés propriétaires de leur local profes-
sionnel ont tendance à avoir moins de sinistres (ou à moins les déclarer) que les locataires
(et les locataires pour compte). La zone géographique du modèle actuel, quant à elle,
présente une relation positive presque linéaire (fig. 2.3d)avec le nombre de sinistres DDE
(à l’exception des zones 2 et 3 de même niveau, qui pourraient a priori être fusionnées).
Ce portefeuille d’étude est le support sur lequel sera opérée la démarche de modélisation:
elle est décrite dans le troisième et dernier chapitre de ce mémoire.
17
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE
18
Chapitre 3
19
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
les forêts aléatoires sont populaires de nos jours pour la sélection de variables car elles
sont applicables sur un grand nombre de variables avec un temps de calcul acceptable.
Ainsi, le GBM est utilisé dans les deux méthodes présentées dans ce mémoire, à la dif-
férence près que la méthode alternative fera précéder cette procédure d’une régression
pénalisée de type LASSO qui a pour double objectif de pré-sélectionner les variables caté-
gorielles et d’effectuer des regroupements automatiques de modalités pour celles-ci (fig-
ure 3.1).
L’étape suivante consiste à bâtir le modèle final et les deux approches diffèrent nettement.
L’approche traditionnelle consiste à prendre simplement comme liste de régresseurs la
liste des variables avec la plus forte influence relative et à les introduire dans un GLM ;
tandis que la méthode alternative transforme directement le GBM en structure linéaire.
Une étape de simplification est ensuite généralement de rigueur afin d’avoir un modèle
qui garde une certaine cohérence. Elle est effectuée manuellement dans la méthode clas-
sique grâce à des regroupements, ce qui permet de diminuer le nombre de paramètres du
modèle et d’accroître son pouvoir généralisant.
Enfin, il est d’usage de chercher l’influence d’interactions (ou croisements de deux vari-
ables) : par exemple, il est de notoriété publique que pour le risque automobile, l’interaction
ag e×sexe 1 est pertinente (par exemple, les jeunes conducteurs masculins ont une fréquence
bien plus élevée que les jeunes conductrices alors qu’il n’y a pas de différence de fréquence
entre les deux sexes pour les conducteurs de 30 à 50 ans). Il n’existe pas de méthode stan-
dard pour détecter les interactions qui soit computationnellement efficace et frugale ; ce
mémoire n’a pas vocation à approfondir cette étape.
1
La réglementation en matière de segmentation tarifaire interdit désormais d’utiliser le critère du sexe
comme différenciation du risque.
20
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
21
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
22
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
23
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Figure 3.4 – Validation croisée par 5-fold. source : Mémoire IA de G UILLOT [2015]
Dans l’étape de sélection de variables, on utilise la méthode des k-fold pour calibrer
le méta-paramètre de la procédure LASSO (au sein de l’approche innovante) mais aussi
pour valider la sélection de variables issue des gradient boosting mis en œuvre (dans les
approches classique et alternative). Cette procédure s’appuyant sur k partitions est aussi
utilisée de façon différente dans le cadre de la modélisation GLM de l’approche tradition-
nelle (du fait de l’absence de méta-paramètre) elle permet de valider le modèle final en
évaluant la stabilité de ses coefficients et des indices de Gini obtenus pour les k mod-
èles entraînés. A titre informatif, une autre pratique existe qui consiste à bâtir un modèle
GLM final “moyen”, en définissant la valeur de chaque coefficient comme moyenne des
k coefficients.
Pour les modèles GLM, nous pouvons aussi approfondir la validation du modèle en
effectuant une analyse variable par variable dans laquelle on vérifie sur la base de test
l’adéquation des prédictions moyennes aux observations moyennes pour chacune des
modalités (cf rubrique 3.2.2).
La courbe de lift est un outil de validation qui permet de comparer les valeurs prédites
aux valeurs observées, et ce, par segment de prédictions croissantes. On utilise m seg-
ments d’exposition égale pour chacun desquels on calculera la prédiction moyenne et
l’observation moyenne : in fine, on a une courbe qui représente les valeurs prédites seg-
mentées et une seconde courbe qui montre les valeurs moyennes observées pour des
risques du même segment. Les courbes doivent être proches pour s’assurer que le mod-
èle est raisonnable. Si ce graphique fait apparaître un écart systématique et significatif
entre les deux courbes, cela signifie que le modèle n’est pas bien ajusté aux données. Ces
courbes de lift doivent être tracées pour les échantillons d’apprentissage et de test (illus-
tration en page 41).
24
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Mesure de la performance
Pour évaluer la performance d’un modèle, il est important d’analyser à la fois une mesure
de la précision et une mesure de pouvoir de tri car l’analyse d’un seul indicateur ne suffit
pas. Ici, on utilise principalement deux mesures pour évaluer la performance des modèles
bâtis: l’indice de Gini et la RMSE.
L’indice de Gini est un indicateur qui reflète “le bon classement” des risques, il ne
peut être utilisé seul car il ne tient pas compte des écarts absolus (seul l’ordre compte): il
constitue un indicateur du pouvoir discriminant. Il est donc conjointement utilisé avec
la classique root mean squared error ou racine carrée de la somme des erreurs élevées au
carré (RMSE) qui, elle, croît avec les écarts absolus et est un indicateur du pouvoir de pré-
diction.
Indice de Gini
L’indice de Gini est un indicateur mesurant la capacité de segmentation et de tri d’un
modèle. Il est calculé à partir de la fonction représentée par la courbe de Lorenz. Aussi
appelée courbe de gain, cette courbe, créée par L ORENZ [1905], permet de représenter
graphiquement les inégalités de revenus au sein d’une population. On lui associe la fonc-
tion qui calcule la part des revenus par rapport à la part des détenteurs. Dans le cadre
d’une étude de la fréquence de sinistre, la courbe de gain représente en abscisse la part
cumulée des expositions, et en ordonnée, la part cumulée du nombre de sinistres. L’indice
de Gini permet de comparer deux modèles ou de tester l’apport de nouvelles variables. Il
est calculé à partir de l’aire entre la bissectrice et la courbe de gain notée A, et correspond
à deux fois l’aire A de la figure 3.5.
Figure 3.5 – Calcul de l’indice de Gini comme étant deux fois l’aire A entre la courbe de gain et la
bissectrice. source : Mémoire IA de PARIENTE [2016]
25
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
des assurés : “x % des assurés ont x % du nombre de sinistres total”. Si l’aire entre la
courbe de gain et la bissectrice vaut A, et que celle au-dessus de la courbe de Lorenz vaut
B alors l’indice de Gini est défini comme
A
G=
A+B
Puisque A + B = 0, 5, l’indice de Gini est égal à G = 2A ou encore G = 1 − 2B.
Si l’on suppose que la courbe de gain est représentée par la fonction y = L(x), alors la
valeur de l’aire B peut s’exprimer avec l’intégrale:
Z 1
B = 1− L(x)d x,
0
3.2.1 Préliminaires
Principes de l’arbre décisionnel
Les explications ci-après sont largement inspirées par le chapitre dédié aux arbres de dé-
cision de L UTZ et B IERNAT [2015]. Un arbre décisionnel permet d’expliquer une valeur à
partir d’une série de variables discrètes ou continues. Si la variable à expliquer est con-
tinue, on parle alors d’arbre de régression ; si elle est qualitative, on parle d’arbre de classi-
fication. Il consiste à partitionner les individus en produisant des groupes d’individus les
plus homogènes possible du point de vue de la variable à prédire, en tenant compte d’une
26
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Pour construire l’arbre attendu, trois principales questions doivent être résolues :
Les arbres décisionnels peuvent devenir instables et la variance de leur prédiction peut
atteindre des niveaux élevés. L’algorithme GBM [F RIEDMAN, 2001] appartient à la famille
des méthodes ensemblistes: elles mettent en concurrence plusieurs arbres lors du classe-
ment d’un nouvel individu. Elles permettent donc d’améliorer drastiquement les perfor-
mances des arbres et de les rendre moins sensibles aux idiosyncrasies des données. Mais
en contrepartie, elles donnent lieu à des règles moins lisibles d’un point de vue métier.
27
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
• le nombre d’arbres
Principes du GLM
Introduits par M C C ULLAGH et N ELDER [1989], ces modèles qui permettent à la fois de
modéliser des comportements non linéaires et des distributions de résidus non gaussiens,
ont permis d’améliorer la qualité des modèles de prédictions du risque et sont aujourd’hui
largement utilisés par les compagnies d’assurance IARD.
Les modèles linéaires généralisés sont une extension de la régression linéaire ordi-
naire dans laquelle la variable réponse Yi peut-être vue comme une réalisation d’une dis-
tribution particulière de la famille exponentielle. En régression linéaire classique, une
variation constante d’un prédicteur entraîne une variation constante de la variable ex-
pliquée. La relation de dépendance entre la sortie et les régresseurs est donc exclusive-
ment linéaire. A contrario, les GLM permettent de modéliser une dépendance non linéaire
dans le sens où c’est l’image de la variable réponse par une fonction arbitraire g (appelée
fonction de lien) qui dépend linéairement des variables explicatives:
g (E(Yi |X i ) = X it β (3.4)
où X it désigne la transposée du vecteur d’observations X.
Un modèle GLM est donc constitué de trois éléments clés:
28
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
• un prédicteur linéaire X t β,
La distribution de probabilité est choisie en accord avec la forme des données à mod-
éliser. Pour les données de comptage, il convient de choisir une distribution discrète : la
loi de Poisson. Pour les données de montant, qu’il est préférable d’employer une distri-
bution continue positive comme la loi Gamma. Ces lois doivent faire partie de la famille
exponentielle qui correspond aux densités de la forme :
yθ − b(θ)
· ¸
f θ,φ (y) = exp + c(y, φ)
a(φ)
Dans ce mémoire, l’illustration porte sur le nombre de sinistres modélisé par la loi
Poisson de paramètre λ dont on rappelle la densité:
λy
= exp yl n(λ) − λ − l n y! ,
£ ¤
f λ (y) = exp(−λ) (3.5)
y!
par rapport à la mesure de comptage, avec y ∈ N, θ = l n λ, a(φ) = φ = 1, b(θ) = exp(θ) = λ,
et c(y, φ) = −l n y! .
Le prédicteur linéaire hérite de la régression standard et implique deux contraintes
importantes sur la fonction de prédiction produite par le modèle:
La log-vraisemblance:
n n
y i l n(λi ) − λi − l n(y i !)
X X
log(L) = log( f λi (y i )) = (3.7)
i =1 i =1
29
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
On calcule les dérivées de cette quantité par rapport aux coefficients, que l’on cherche
à annuler
∂ log(L) X n ∂ ¡
y i X it β − λi − l n y i !
¢
s(β) = =
∂β i =1 ∂β
n t
n
y i X it − X it e Xi β = y i X it − X it λi
X X
=
i =1 i =1
n
(y i − λi )X it = 0.
X
=
i =1
répéter
(βk+1 ) = (βk ) + I−1 (βk )s(βk )
où I−1 est la matrice de variance-covariance
jusqu’à avoir k tel que (βk+1 ) ≈ (βk )
Algorithme 1 : Algorithme de Newton-Raphson appliqué à la régression de Poisson
Certains contrats ne sont pas en cours du 1er janvier au 31 décembre comme on l’a vu
en page 6. On doit tenir compte de ce paramètre pour ne pas modéliser de la même façon
deux risques similaires qui auraient été exposés sur des durées différentes. On fait souvent
l’hypothèse que le risque est linéaire avec l’exposition. Ainsi, pour expliquer la variable
aléatoire N d’espérance λ représentant le nombre de sinistres, on intègre l’exposition e
du contrat (durée mesurée en nombre d’années) dans la régression qui utilise un modèle
poissonnien et une fonction de lien logarithmique. Comme l’espérance de cette variable
devient λe, la régression s’écrit alors :
Cela revient donc à ajouter une variable explicative au sens du modèle dont le coef-
ficient associé β est connu et fixé à 1 (il n’a pas besoin d’être estimé). La variable ainsi
ajoutée s’appelle une variable offset.
Les GLM, issus de la statistique paramétrique, possèdent néanmoins des limites de
nature à réduire leur capacités prédictives : la détection et la modélisation d’interactions
entre variables ainsi que la modélisation de la prime en fonction de variables quantita-
tives (continues). S’agissant des interactions, elles doivent être spécifiées a priori dans
un modèle GLM. Si l’on dispose de 5 variables explicatives prenant chacune 10 valeurs, Il
existe 105 = 100000 interactions possibles dont il faut tester la significativité.
30
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Dans la pratique, plusieurs itérations sont souvent requises entre les étapes de simplifi-
cation et de validation.
Notons aussi que l’ensemble des opérations sont appliquées uniquement sur la base
d’apprentissage.
Le GBM peut être utilisé à des fins de prédiction mais il n’est employé ici que pour sélec-
tionner les variables en les hiérarchisant grâce à la notion d’importance relative ; on doit
paramétrer l’algorithme en fixant la profondeur des arbres à 1 (donc une seule division
par arbre, une seule variable de division).
Paramétrage du GBM
• On choisit le nombre d’arbres, le nombre d’observations par noeud et on utilise les
options de train.fraction et bag.fraction. A l’issue de chaque exécution, la procédure
issue du package GBM dans R permet d’identifier le nombre d’arbres optimal. Si
l’algorithme considère que le meilleur agrégat est constitué de la totalité des arbres
générés, c’est-à-dire qu’on a besoin du nombre d’arbres maximum paramétré, il est
probable que l’apprentissage soit inachevé. Pour pallier à cela, on peut envisager
au moins deux solutions:
• On trie la liste des variables par influence relative décroissante et on observe les
plus influentes.
• Afin de valider cette sélection de variables, on exécute des GBM en faisant appel à
la méthode de validation croisée k-fold (fonctionnalité optionnelle permise par le
package R gbm). Cette procédure permet de choisir le nombre optimal d’itérations
pour minimiser l’erreur (déviance) moyennée sur les k partitions (cf page 23).
• Enfin , on entraîne un dernier gradient boosting qui a pour objectif d’évaluer l’importance
de chacune des variables sélectionnées plus précisément. Pour cela, on choisit un
nombre d’arbres plus important et on optimise la vitesse d’apprentissage comme
précédemment.
31
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Modélisation GLM
32
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
D’abord sur la base de la fréquence observée moyenne Pour chacune des variables caté-
gorielles:
• On effectue des regroupements de modalités représentant de faibles volumes / ex-
positions de façon à obtenir 5% d’exposition dans chaque modalité (sauf exception)
et on ajoute une modalité pour les valeurs manquantes ou non renseignées.
• On groupe certaines modalités par paire sur la base de fréquences égales mais aussi
de l’opinion de l’actuaire et/ou de l’expert métier.
• la tendance des prédictions est similaire à celle des observations (sinon on suspecte
que le signal est déjà capté par une autre variable, à confirmer par le calcul des
corrélations)
On mesure les corrélations en regard des comportements erratiques/observés dans
l’étape précédente.
Enfin, on décide éventuellement de conserver une seule variable parmi les couples de
variables très corrélées.
33
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Sélection des variables En entrée de cette étape GBM, on compte 141 régresseurs. Le
paramétrage initial du GBM est le suivant:
• train.fraction: 1,0
• bag.fraction: 0,8
• shrinkage: 0,05
On optimise le shrinkage comme décrit dans la section 3.2.2 et in fine, il prend une valeur
de 0,378 après une petite dizaine d’itérations: l’agrégat des 285 premiers arbres est alors
optimal. Le pouvoir prédictif semble concentré sur les dix variables les plus influentes. On
souhaite ensuite confronter cette liste avec le résultat de la même procédure paramétrée
avec une validation croisée de type 5-fold mais elle échoue, limitée par la mémoire vive
de la machine. On parvient néanmoins à l’exécuter en 2-fold et les résultats sont très sim-
ilaires pour les 10 variables les plus influentes (voir figure 3.7) : 8 variables sont identiques
et dans le même ordre à l’exception de la surface et du capital assuré en incendie.
Figure 3.7 – Variables les plus influentes, en sortie de GBM sans et avec 2-fold
Modélisations GLM Le modèle GLM brut (i.e. sans retraitement) avec la sélection de 10
variables opérée par le GBM final coûte environ 2 points de Gini sur les deux échantillons
(0,4212 et 0,4122).
On mesure les corrélations (plus précisément les associations) entre ces 10 variables
grâce au V de Cramér (figure 3.9).
34
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
(a) Influence relative des variables du GBM final (b) Courbes de gain et Gini du GBM final sur les
échantillons d’apprentissage et de test
Figure 3.8 – Résultats du modèle GBM final avec 10 variables et 1000 arbres
35
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
• le nombre de chambres,
Dès lors, les six variables conservées dans le modèle final sont dans la figure 3.13.
Simplifications du modèle
• une nette sur-sinistralité pour les locaux de moins de 15 m² par rapport à ceux de
15 à 45 m²
• avec des creux pour 10 m² supplémentaires ce qui nous semble difficilement expli-
cable ; on veillera donc, par exemple, toutes choses égales par ailleurs, à ce qu’un
local de 91 m² ne paie pas strictement moins qu’un local de 90 m².
Simplification d’une variable catégorielle Pour la classe de risque DDE liée à l’activité
professionnelle, on a fait le choix d’inclure les modalités "vide" ou "manquante" dans la
classe intermédiaire n°2 qui avait la fréquence observée la plus proche (figure 3.11).
Résultats obtenus
Modèle final Les premiers indicateurs que l’on regarde pour préjuger de la qualité
de notre modèle sont calculés sur les données d’apprentissage, de test et de l’année suiv-
ante (figure 3.12). La fréquence moyenne prédite est parfaitement ajustée à la moyenne
observée sur l’échantillon d’apprentissage, et sur-estime de 0,012 point sur l’échantillon
de test. Un point de Gini est perdu lors du test, ce qui n’est pas négligeable, mais n’est pas
non plus assez important pour avoir des soupçons de sur-apprentissage (cela équivaut
à une baisse de 2,36% du Gini) tandis que l’erreur moyenne quadratique apparaît stable
(elle baisse légèrement mais on s’attendait logiquement à une légère hausse).
La figure 3.13 fait clairement apparaître que la localisation géographique du risque,
à elle seule, génère plus de 65% de la performance du modèle (mesurée par l’indice de
Gini). Ajouter deux autres variables (la nature de l’activité professionnelle et la surface)
permet d’atteindre 92%. La présence d’antécédents de sinistre du même type chez AXA
apporte près de 6% de la performance finale, la valeur du contenu assuré y contribue à
hauteur de 1,6%. On a ici un modèle GLM avec 4 variables qui offre un Gini de 0,42 ce
qui est remarquable. Le choix de conserver la sixième variable est clairement discutable
et dépend du niveau de parcimonie souhaité.
36
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
(a) Fréquence moyenne observée avant discréti- (b) Fréquence moyenne observée et prédite
sation après discrétisation
(a) Fréquence moyenne observée avant simpli- (b) Fréquences moyennes observées et prédites
fication après simplification
Figure 3.11 – Exemple de simplification d’une variable catégorielle: la classe de risque DDE.
37
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
38
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
(c) Surface du local (d) Nombre de sinistres DDE AXA sur 36M
Figure 3.14 – Fréquences moyennes prédites et observées pour chaque variable du modèle GLM
final obtenu
39
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
dans ce champ de capital incendie et le montant assuré en DDE y sera strictement égal.
Ce prédicteur est donc bien mieux renseigné. Pour les formules non packagées ou à la
carte, on a aussi observé que les distributeurs d’AXA ont souvent tendance à déterminer
le capital assuré en DDE comme un certain pourcentage du capital incendie, d’où une
corrélation très importante entre les deux montants (3.9).
Figure 3.15 – Coefficients avec intervalle de confiance pour les deux variables les plus influentes
du modèle GLM final obtenu avec la méthode classique
Courbe de lift Les courbes des fréquences observées et prédites par quantile (fig-
ure 3.16) sont très proches pour la plupart des segments ; on note néanmoins des faib-
lesses du modèle pour les segments extrêmes :
• le segment correspondant aux 5% des risques avec la fréquence prédite la plus faible
a, en fait, une fréquence observée beaucoup plus élevée: donc le modèle ne permet
pas d’identifier le segment des moins risqués.
• les segments correspondant aux 5% des risques avec la fréquence prédite la plus
élevée a, quant à lui, une fréquence observée moins élevée: donc le modèle identifie
correctement le segment des plus risqués mais il sur-estime un peu leur fréquence.
On ne constate pas d’écart systématique entre les deux courbes ; la courbe des fréquences
observées oscille légèrement parfois autour de celle des prédictions ce qui nous conforte
dans la robustesse du modèle pour 90% des risques, malgré les réserves exprimées ci-
dessus sur les segments extrêmes. Notons que ces observations sont valables tant pour
l’échantillon d’apprentissage que pour l’échantillon de test.
Consistance temporelle Les tendances des fréquences selon chaque variable sont
bien consistantes dans le temps sur les trois années d’étude 2012 à 2014.
40
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
(a) Courbe de lift sur l’échantillon (b) Courbe de lift sur l’échantillon de test
d’apprentissage
L’évolution de l’indice sur les partitions de test est conforme à l’attendu (un peu au-
dessous du niveau des échantillons d’entraînement) excepté pour les modèles numéros
2 et 10 qui sont situés au-dessus de la performance sur les 9 partitions d’apprentissage
(cf figure 3.18). Du côté des dix jeux de coefficients (fig 3.19), la volatilité des coefficients
semble suffisamment limitée, à l’exception peut-être du sixième facteur de risque (relatif
aux sinistres DDE déclarés à la souscription) où elle est un peu plus prononcée (fig 3.19f).
La conjonction de ces éléments concourent à alimenter notre confiance dans la ro-
bustesse du modèle final issu de la méthode traditionnelle.
41
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Figure 3.17 – Fréquences moyennes relatives observées de 2012 à 2014 pour chaque variable du
modèle GLM final obtenu
42
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Figure 3.18 – Validation du modèle final par 10-fold: indices de Gini sur les partitions
d’entraînement et de test
(a) Zonier fréquence DDE (b) Classe de risque de l’activité (c) Surface du local
professionnelle
(d) Nombre de sinistres DDE (e) Capital assuré en incendie (f ) Sinistres DDE déclarés à la
survenus sur le contrat lors des souscription
36 derniers mois
Figure 3.19 – Validation croisée des coefficients du modèle GLM final par 10-fold
43
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
44
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
est connue pour réduire simultanément la valeur des coefficients de variables corrélées
tandis que le lasso a plutôt tendance à retenir arbitrairement l’un d’entre eux et écarter
les autres. Dans notre étude, on est confronté à un grand nombre de variables et parmi
ces méthodes de pénalisation, seul le lasso permet d’exclure véritablement une partie des
facteurs de risque utilisés.
Pour estimer les paramètres, on doit résoudre le programme de minimisation décrit
par l’équation (3.9) mais celui-ci n’admet pas de solution analytique par formule fermée
comme en régression linéaire standard, du fait de la présence de la norme L1 non in-
versible. La résolution numérique est donc effectuée par un algorithme de descente de
gradient. Ainsi, le programme d’optimisation se décline selon chaque direction β j , par
l’équation impliquant la dérivée partielle de la fonction de coût R:
n
¯
∂ R ¯¯ 1X
= − x i j (y i − x it β̃) + λ(1 − α)β j + λα = 0 (3.10)
∂ β j ¯β=β̃ n i =1
Au-delà des traitements appliqués sur les données (et décrits dans la partie 2.2) en
amont des deux approches présentées, deux étapes additionnelles sont mises en œuvre
par cette méthode:
45
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Cette procédure de régularisation est utilisée pour pré-sélectionner les variables caté-
gorielles mais elle permet aussi de regrouper les modalités similaires et de réduire la
dimension des régresseurs non numériques. Néanmoins, il est nécessaire de conserver
aussi les variables numériques dans la régression pour capturer toutes les corrélations
entre les facteurs de risque de type catégoriel et ceux de type numérique. A la fin de cette
étape de pré-sélection, on ne supprime que les variables catégorielles, c’est-à-dire celles
pour lesquelles le LASSO a annulé les coefficients β.
Comme on l’a vu dans la sous-partie 3.3.1, le choix du méta-paramètre λ, qui représente
le poids de la pénalisation, est crucial: on propose de détailler comment est opéré cet ar-
bitrage ainsi que le paramétrage de la procédure. La valeur optimale de λ est générale-
ment déterminée par validation croisée (cf sous-section 3.1.2). La méthode alternative
n’échappe pas à la règle et examine une sélection de deux cents valeurs candidates de λ,
comparées par la méthode de validation croisée de type 10-fold, à l’aide de la déviance
comme mesure d’erreur. Le choix de ces deux cents valeurs candidates est déterminé
par l’algorithme de F RIEDMAN et collab. [2010], qui est computationnellement efficient.
La valeur initiale λmax est la plus petite valeur pour laquelle tous les coefficients estimés
sont nuls, puis l’algorithme détermine ensuite une valeur finale λmi n = ² · λmax (typique-
ment ² = 10−3 ), puis construit une suite de valeurs décroissantes entres ces deux bornes
sur l’échelle logarithmique: λmax > λ2 > ... > λ198 > λ199 > λmi n . Pour chacune de ces 200
valeurs, l’erreur de validation croisée CV(λ) est calculée par la moyenne des déviances
devi sur les dix partitions du 10-fold et, est donc incertaine.
1 X10
CV(λ) = devi (λ)
10 i =1
La première approche standard est de retenir la valeur du méta-paramètre qui min-
imise l’erreur, noté λmi n
Dev , c’est le choix fait par les concepteurs de la méthode alternative
étudiée dans cette partie.
λmi n
Dev = argmin CV(λ)
λ
Néanmoins, c’est un choix “conservateur”: le modèle obtenu apparaît parfois trop
complexe et a tendance à sur-apprendre. La seconde approche consiste à sélectionner
le λ le plus élevé pour lequel l’erreur est majorée par l’écart-type de λmi n
Dev , que l’on note
alors λDev
1se
.
Comme on connaît l’erreur de validation croisée (ici la déviance devi ) pour chacune
des 10 partitions i , on peut calculer son écart-type σ basé sur ces 10 estimations et ce,
pour chaque λ candidat. Mathématiquement, on définit alors λ1se Dev comme suit:
λ1se
Dev = max λ
CV(λ)6CV(λmi
Dev
n
)+σ(λmi
Dev
n
))
46
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Il correspond alors au modèle le plus simple (puisque pénalisé davantage), mais qui
ne peut être distingué du meilleur modèle en termes d’erreur, étant donné l’incertitude
de l’estimation de cette erreur. Il s’agit donc d’une approche qui privilégie la parcimonie.
Plus loin, on compare ces deux approches relatives au choix du méta-paramètre dans
la mise en œuvre de la méthode sur notre exemple d’application (cf partie 3.3.3), ainsi que
les sélections de variables qui en résultent.
L’ensemble d’arbres est optimisé (comme décrit en section 3.2.2) de façon à ce que le
nombre d arbres optimal soit entre 500 et 2000: s’il est inférieur à 500, on divise par deux
le paramètre de rétrécissement pour apprendre moins vite ; s’il est supérieur à 2000, on
double ce méta-paramètre pour apprendre plus vite et réduire le nombre d’arbres néces-
saires pour atteindre l’optimalité.
Le nombre d’itérations (ou d’arbres “boostés”) optimal est celui qui minimise la moyenne
des erreurs de généralisation sur les cinq partitions.
L’influence relative issue de la validation croisée de chaque régresseur est calculée
comme la moyenne des influences relatives obtenues sur chacune des cinq partitions.
On trie par importance décroissante les facteurs de risque et on les ajoute successive-
ment à la liste finale de variables jusqu’à obtenir une importance cumulée (ou informa-
tion) égale à 99, 9%.
La première étape est l’apprentissage d’un nouveau GBM à partir uniquement de la liste
de régresseurs sélectionnés tel que le nombre de stumps optimal soit compris entre 2000
et 6000 (en ajustant le méta-paramètre de rétrécissement ou shrinkage comme dans la
méthode classique). La seconde consiste, pour chacun de ces régresseurs, à parcourir
les arbres où ils interviennent et à successivement ajouter la prédiction de ces arbres sur
47
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
l’ensemble des modalités du régresseur concerné (et ce, jusqu’à l’arbre optimal). Donc,
concrètement, le coefficient associé à la modalité A de la variable v ar est égal à la somme
des prédictions des arbres où la variable de scission est v ar pour la modalité A. Au final,
on a bien un coefficient pour chaque modalité de chaque régresseur.
L’intercept est égale à la valeur prédite initiale sur laquelle les arbres font des ajuste-
ments et la formule de calcul pour prédire est
On applique l’offset en multipliant cette prédiction par la durée d’exposition (ou nom-
bre d’années-police).
La différence entre la formule du GLM et celle du GBM linéarisé est subtile. Elle ré-
side dans le fait que pour une variable numérique v ar , on multiplie le βv ar unique par
la valeur de v ar dans la première, tandis que v ar est discrétisée dans la seconde: il n’y
a donc pas de produit, on utilise simplement le coefficient βmod al i t é correspondant à la
modalité de v ar .
Cette étape a pour issue une pré-sélection de 43 variables catégorielles sur 44 ce qui nous
semble peu satisfaisant au vu du temps de calcul nécessaire (près d’une heure). On in-
tuite que le poids accordé à la pénalisation est trop faible car les concepteurs de cette
méthode alternative (et du package R interne d’AGPC utilisé) ont opté pour le λmi n
Dev (cf
sous-parties 3.3.1 et 3.3.2).
Comme on l’a vu précédemment, une pratique commune est de choisir λ1se Dev , qui
définit le modèle le plus simple dont la précision est comparable à celle du meilleur mod-
èle (celui relatif au λmi n
Dev , cf équation (3.3.2)).
En fait, il s’avère que sur de nombreux jeux de données utilisés par AGPC, choisir le
λDev éliminerait trop de variables (que l’étape suivante de GBM aurait conservées le cas
1se
λmi n −5 1se
Dev = 2, 665396.10 , λDev = 6, 302301.10
−4
et λmi n = 7, 246114.10−6 ;
dans notre cas. La trajectoire des solutions est représentée en figure 3.20 avec une ab-
scisse qui reflète les λi passés à l’échelle logarithmique et la déviance en ordonnée. La
48
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
borne inférieure des lambdas testés est l’abscisse du point rouge le plus à gauche:
log(λmi n −5
Dev ) = log(2, 665396.10 ) = −10, 53257.
log(λ1se −4
Dev ) = log(6, 302301.10 ) = −7, 369426.
Un autre argument est qu’ici la régression LASSO n’est pas utilisée à des fins de pré-
diction mais de sélection de variables, il serait donc dommage d’opter pour une solu-
tion plus pénalisée et de perdre des variables pertinentes du point de vue du GBM. De
plus, bien qu’elle n’ait exclu qu’une seule variable catégorielle, la procédure n’est pas
forcément dénuée d’intérêt puisqu’elle a permis de faire des simplifications pour qua-
tre variables qui avaient de nombreuses modalités (en les regroupant) ce qui permettra
d’améliorer aussi la vitesse d’apprentissage du GBM (qui passe par de l’encodage one-hot
ou représentation binaire, où un nombre de modalités se décline en presque autant de
colonnes).
A titre informatif, choisir le λ1se
Dev pour notre modèle conduit à une pré-sélection de
18 variables catégorielles sur 44, ce qui permet d’avoir un traitement GBM plus rapide
par la suite qu’avec les 43 variables retenues par la méthode alternative originale. In fine,
on observe alors que cela impacte peu la sélection finale de variables catégorielles par
49
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Figure 3.21 – Sélection des variables catégorielles en fonction du lambda retenu dans la régression
LASSO
50
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
le gradient boosting puisqu’une seule variable a été substituée par une autre, qui est a
priori non corrélée (en jaune dans la figure 3.21).
Le regroupement de variables effectué par la procédure LASSO est identique avec les
deux choix de lambdas mentionnés et concerne quatre variables (figure 3.22). Elle a per-
mis de réduire la dimension de ces variables à quinze modalités maximum.
Pour le reste du mémoire, on restera fidèle à la méthode alternative originale, à savoir
une pré-sélection de 43 variables catégorielles issue du modèle LASSO caractérisé par
λmi n
Dev .
Simplifications du modèle
51
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Figure 3.23 – Regroupements de modalités des variables catégorielles effectués par LASSO
52
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Figure 3.24 – Influence relative issue de la validation croisée suite au GBM de sélection. Liste
tronquée à 50 prédicteurs: les 46 premiers étant ceux du modèle.)
53
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Comme décrit précédemment, un nouveau GBM est entraîné sur cette sélection de quarante-
six facteurs de risque, puis la transformation du GBM en GLM est opérée: on obtient alors
un jeu de coefficients pour chacun des régresseurs. On les analyse et interprète avec un
regard “métier” plus loin (cf page 55), parmi d’autres outils de validation.
Sur nos données, bien que ce ne soit pas son but, on découvre que le procédé de
linéarisation a permis un gain de performance: de près d’un demi-point d’indice de Gini
sur l’échantillon d’apprentissage et de plus d’un point sur l’échantillon de test (figure
3.25.
(a) Performance du GBM avant sa linéarisation (b) Performance du GBM après sa linéarisation
Figure 3.25 – Performance du GBM final avant / après sa linéarisation sur les échantillons
d’apprentissage et de test
Interactions
L’ajout des interactions suggérées apporte un très faible gain d’information (elles feraient
diminuer l’erreur de validation croisée de l’ordre de 10−5 , figure 3.26). On ne trouve
d’ailleurs pas d’interprétation intuitive à ces variables croisées.
Figure 3.26 – Suggestion d’interactions et réduction d’erreur estimée suite à leur ajout.)
Bien qu’a priori peu prometteurs, on teste l’ajout de ces interactions une par une: la
procédure échoue. Il n’y aura donc pas de variable croisée dans le modèle final issue de
la méthode alternative.
Le modèle final fait donc intervenir quarante-six variables: dix-neuf catégorielles et vingt-
sept numériques. In fine, aucune interaction ne figure dans le modèle.
54
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Figure 3.27 – Modèle GLM final issu de l’approche alternative: indicateurs principaux
Courbe de lift Les courbes des fréquences observées et prédites par quantile (figure 3.30)
sont proches pour les deux tiers des segments; on remarque souvent pour le tiers restant
55
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
(a) Nombre de sinistres (b) Surface du local (c) Capital assuré en in- (d) Capital assuré en
DDE AXA sur 36M cendie dégâts des eaux
(e) Longueur de la vit- (f) Nombre de mises en (g) Nombre de mises en (h) Nombre de sinistres
rine demeure sur 24M demeure sur 12M DDE AXA sur 24M
(a) Zonier fréquence DDE (b) Nombre de sinistres DDE (c) Classe de risque de l’activité
AXA sur 36M professionnelle
(d) Surface du local (e) Capital assuré en incendie (f) Sinistres DDE déclarés à la
souscription
Figure 3.29 – Fréquences moyennes prédites et observées pour chaque variable du modèle final
issu de la méthode alternative
56
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
(a) Courbe de lift sur l’échantillon (b) Courbe de lift sur l’échantillon de test
d’apprentissage
une tendance à sur-estimer la fréquence réelle tant sur l’échantillon d’apprentissage que
de test: les segments n° 1, 7, 13 à 16. Le modèle sous-estime la fréquence des 5% les
plus risqués (quantile n°20). Malgré ces réserves énumérées, on ne constate pas d’écart
systématique entre les courbes.
Performances
57
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Figure 3.31 – Comparaison des variables des modèles issue des deux méthodes: ainsi que de leur
granularité et de leur spread
58
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Figure 3.32 – Comparaison des variables du modèle "classique" et du modèle "alternatif" limité à
dix régresseurs, dit "parcimonieux"
Figure 3.33 – Comparaison des indicateurs principaux de performances des modèles issue des
deux méthodes
59
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
Avantages/inconvénients
En termes de temps nécessaire à l’application de chaque méthode, une fois les don-
nées exploitables et l’ensemble des outils programmés et maîtrisés, quelques heures à
une journée suffisent à l’actuaire tarificateur aguerri pour obtenir le modèle final avec
l’approche innovante automatisée, ce qui représente un atout certain au vu du temps
libéré pour l’analyse, tandis que cinq à sept jours sont requis pour une modélisation clas-
sique avec une taille de base de données similaire à celle de notre exemple d’application.
60
Conclusion et perspectives
On peut tout à fait bénéficier des atouts offerts par les procédures d’apprentissage statis-
tique en se contraignant à aboutir in fine à un modèle linéaire généralisé (donc inter-
prétable) qui soit robuste.
L’approche classique qui utilise le gradient boosting permet un gain de temps im-
portant sur l’étape de sélection de variables, mais les nombreuses itérations manuelles
nécessaires par la suite (par exemple les opérations de simplification/lissage des vari-
ables) sont chronophages même si elles permettent, dans le cadre de notre portefeuille
d’étude, de bâtir un modèle performant, très parcimonieux et où l’interprétabilité est as-
surée par un regard métier tout au long du processus.
Néanmoins, le besoin de faire appel à des outils automatiques se fait de plus en plus
sentir dans les équipes d’actuariat produit au vu du nombre grandissant de modèles util-
isés et de la fréquence à laquelle ils doivent être mis à jour. L’approche innovante répond
à ce besoin en permettant un gain de temps considérable grâce une procédure quasi-
automatisée. L’actuaire doit néanmoins porter un regard critique sur le modèle obtenu et
contraindre le nombre de variables qu’il contient, car sa parcimonie et son interprétabil-
ité sont décevantes sans intervention de l’utilisateur.
Pour résumer, l’utilisation des outils de l’apprentissage statistique apporte des béné-
fices certains en termes de performance et de vélocité, l’expertise métier et l’opinion de
l’actuaire restent néanmoins cruciales pour répondre aux critères de transparence, de ro-
bustesse et d’applicabilité opérationnelle.
L’étude qui a été réalisée donne un exemple de mise en oeuvre sur un produit d’assurance
de masse et peut servir de point de départ de réflexions pour les autres produits d’assurance
de biens et de responsabilités d’Axa (automobile, habitation, agricole, immeuble...). On
identifie deux axes forts d’évolution technique pour la méthode innovante : l’amélioration
de la recherche d’interactions et l’ajout d’une fonctionnalité de lissage automatique des
variables numériques qui viendraient optimiser encore le modèle et renforcer son pou-
voir généralisant.
61
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES
62
Annexe A
Annexes
Figure A.1 – Coefficients avec intervalle de confiance pour chaque variable du modèle GLM final
obtenu avec la méthode classique
I
ANNEXE A. ANNEXES
II
Annexe B
GBM gradient boosting machine. 6, 14, 19–21, 27, 28, 31, 32, 34, 35, 47–49, 51, 53, 54, 56,
60, V, VI
GLM generalized linear model ou modèle linéaire généralisé. 6, 7, 9, 20, 23, 24, 26, 28, 30,
32–34, 36, 38–43, 48, 55, I, V, VI
RMSE root mean squared error ou racine carrée de la somme des erreurs élevées au carré.
25, 26, 57
III
Liste des acronymes
IV
Annexe C
Bibliographie
PAGLIA , A. 2010, Tarification des risques en assurance non-vie, une approche par modèle
d’apprentissage statistique, mémoire d’actuariat, EURIA. 6, 7, 8
T IBSHIRANI , R. 1996, «Regression shrinkage and selection via the lasso», Journal of the
Royal Statistical Society. Series B (Methodological), p. 267–288. 44
Z OU , H. et T. H ASTIE. 2005, «Regularization and variable selection via the elastic net»,
Journal of the Royal Statistical Society: Series B (Statistical Methodology), vol. 67, no 2,
p. 301–320. 44
V
ANNEXE C. BIBLIOGRAPHIE
VI
Liste des figures
VII
LISTE DES FIGURES
VIII