0% ont trouvé ce document utile (0 vote)
49 vues86 pages

Modèles tarifaires robustes en assurance

Ce mémoire vise à utiliser des outils d'apprentissage statistique pour construire des modèles tarifaires robustes et interprétables, en comparant une méthode classique à une méthode automatisée pour modéliser la fréquence des dégâts des eaux chez AXA France. L'étude démontre que les techniques de machine learning améliorent la performance et la rapidité, tout en soulignant l'importance de l'expertise actuarielle pour garantir la transparence et l'applicabilité des modèles. Les résultats montrent que l'approche innovante permet un gain de temps significatif dans le processus de modélisation par rapport à l'approche traditionnelle.

Transféré par

nounafo.silue18
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
49 vues86 pages

Modèles tarifaires robustes en assurance

Ce mémoire vise à utiliser des outils d'apprentissage statistique pour construire des modèles tarifaires robustes et interprétables, en comparant une méthode classique à une méthode automatisée pour modéliser la fréquence des dégâts des eaux chez AXA France. L'étude démontre que les techniques de machine learning améliorent la performance et la rapidité, tout en soulignant l'importance de l'expertise actuarielle pour garantir la transparence et l'applicabilité des modèles. Les résultats montrent que l'approche innovante permet un gain de temps significatif dans le processus de modélisation par rapport à l'approche traditionnelle.

Transféré par

nounafo.silue18
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Mémoire présenté devant le Centre d’Etudes Actuarielles

pour la validation du cursus à la Formation d’Actuaire


du Centre d’Etudes Actuarielles
et l’admission à l’Institut des Actuaires
le 2018
Par : David SULTAN
Titre : Tarif multirisque professionnelle: construction de modèles robustes et interprétables

Confidentialité : NON X OUI (Durée : 1an X 2 ans)


Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus

Membres présents du jury de l’Institut des Entreprise : _______________________________


AXA France
actuaires : Nom : _____________________________________
Guillaume GORGE
Signature et Cachet :
________________________________

________________________________

________________________________
Directeur de mémoire en entreprise :
Membres présents du jury du Centre d’Etudes
Nom : _____________________________________
Doan-Trang NGUYEN TUAN
Actuarielles :
Signature :
__________________________________

__________________________________ Invité :
Nom : _____________________________________
__________________________________
Signature :
__________________________________

__________________________________ Autorisation de publication et de mise en


ligne sur un site de diffusion de documents
__________________________________ actuariels
(après expiration de l’éventuel délai de confidentialité)
__________________________________
Signature du responsable entreprise
__________________________________

Secrétariat :
Signature(s) du candidat(s)
Bibliothèque :
ii
Résumé

L’objectif de ce mémoire est de tirer profit des outils d’apprentissage statistique pour la
construction de modèles tarifaires techniques qui soient à la fois robustes et interpré-
tables. Notre démarche consiste à comparer une méthode classique et une méthode ori-
ginale automatisée en couvrant toutes les étapes de construction d’un modèle technique,
depuis la sélection des variables à la mesure de performance. Ces deux approches sont
illustrées par une application pour modéliser la fréquence de la garantie dégâts des eaux
(DDE) de l’offre multirisque professionnelle chez AXA France. Cette étude montre que
ces techniques de machine learning apportent des bénéfices certains en termes de per-
formance et de vélocité, l’expertise métier et le regard critique de l’actuaire restent néan-
moins cruciaux pour répondre aux critères de transparence, de robustesse et d’applicabi-
lité opérationnelle.

Mots-clé multirisque professionnelle, garantie dégâts des eaux, modèles linéaires gé-
néralisés, gradient boosting, LASSO, automatisation, prime pure, modèle technique tari-
faire, apprentissage statistique, machine learning, sélection de variables, interprétabilité,
robustesse

Abstract

The purpose of this dissertation is to take advantage of machine learning tools for the
construction of robust and interpretable technical pricing models. Our approach con-
sists in comparing a classical method and an automated original method by covering all
the stages of construction of a technical model, from the features selection to the perfor-
mance measurement. These two approaches are illustrated by an application to model
the frequency of the water damage cover of the MRP offer at AXA France. This study shows
that these machine learning techniques bring definite benefits in terms of performance
and velocity. However, the business expertise and actuary’s critical outlook remain crucial
to meet the criteria of transparency, robustness and operational applicability.

Keywords MRP, water damage cover, generalized linear models, gradient boosting,
LASSO, automation, pure premium, technical pricing model, statistical learning, machine
learning, variable selection, interpretability, robustness
iv
Note de synthèse

L’objectif de ce mémoire est de tirer profit des outils d’apprentissage statistique pour la
construction de modèles tarifaires techniques qui soient à la fois robustes et interpréta-
bles. Notre démarche consiste à comparer une méthode classique et une méthode origi-
nale (qui fait l’objet du développement d’un outil de production automatisée de modèle
chez AXA Global P&C) en couvrant toutes les étapes de construction d’un modèle tech-
nique, depuis la sélection des variables à la mesure de performance. Ces deux approches
sont illustrées par une application pour le modèle de fréquence de la garantie dégâts des
eaux (DDE) de l’offre multirisque professionnelle chez AXA France, qui permet de prédire
le nombre de sinistres annuel.

La première étape du processus de tarification de contrats d’assurance non-vie con-


siste à estimer la charge de sinistre future espérée d’un contrat, que l’on appelle prime
pure : elle est égale au produit des espérances du nombre de sinistres et du coût de sin-
istre. Ces deux composantes sont donc modélisées de façon indépendante par les actu-
aires, et traditionnellement à l’aide de modèles linéaires généralisés (GLM) mais des tech-
niques d’apprentissage automatique (machine learning) issues de l’informatique statis-
tique qui promettent des performances supérieures viennent désormais les concurrencer.

Le cadre paramétrique des GLM est particulièrement populaire au sein de la profes-


sion actuarielle, puisqu’il offre des résultats facilement interprétables et qu’il permet de
quantifier l’impact de chaque variable explicative sur la variable réponse. L’existence de
distributions particulièrement adaptées à la nature des données modélisées encourage
l’usage de ces modèles, et justifie également la distinction fréquence/coût : des données
de comptage pour la fréquence, des données continues pour le coût.
Un autre avantage des GLM est la prise en compte partielle d’effets non linéaires à
travers la fonction de lien, qui transforme la structure de dépendance initialement linéaire
entre la variable réponse et les régresseurs.

La volumétrie croissante des données traitées impose de recourir à des outils toujours
plus performants afin de produire des résultats en un temps raisonnable. En particulier,
les procédures de sélection de variables classiques, qui parcourent souvent de manière
quasi-exhaustive l’ensemble des combinaisons possibles, sont consommatrices de temps
de calcul considérables. En réponse à cette problématique, l’apprentissage statistique of-
fre des alternatives efficaces, notamment avec les méthodes ensemblistes comme le gra-
dient boosting, qui sont populaires pour leur vélocité et leur capacité à traiter des don-
nées plus volumineuses. On leur reproche toutefois une certaine opacité qui compromet
l’interprétabilité et donc l’auditabilité des modèles produits (notamment par le régula-
teur et la direction de gestion des risques).

Notre revue de la littérature actuarielle récente révèle aussi que, dans le cadre de pro-

v
jets de tarification non-vie, les techniques d’apprentissage statistique sont directement
utilisées pour produire les modèles finaux, qui sont alors comparés à un GLM standard.
Notre approche se distingue de ces travaux publiés de par son objectif de coupler le
GLM et des méthodes d’apprentissage statistique : nous présentons dans ce mémoire
deux approches qui aboutiront in fine à un modèle de type GLM. Conserver ainsi une
structure (pseudo-)linéaire permet de garantir la lisibilité du modèle et de faciliter l’implémentation
informatique pour la mise en production ; l’usage de procédures issues de l’apprentissage
statistique apportent notamment une aide à la décision dans la sélection de variables tout
en palliant aux problématiques computationnelles inhérentes à cette étape.

Les produits d’assurance des particuliers étant devenus une commodité du fait d’un
marché très concurrentiel, de plus en plus d’acteurs ont désormais comme cible stratégique
les clients professionnels. AXA, leader du marché MRP en France, voit ses clients et prospects
de plus en plus courtisés par la concurrence : acquérir la vision la plus juste du risque
grâce à une segmentation fine et une sophistication des modèles constitue donc un enjeu
stratégique pour elle.
Un autre enjeu majeur pour AXA France est celui du pilotage technique des porte-
feuilles IARD à l’aide du rapport sinistre à prime espéré ou expected loss ratio (ELR), cal-
culé comme le rapport de la prime pure estimée à la prime actuelle payée, qui reflète
la rentabilité technique annuelle estimée de façon individuelle et qui pourra être utilisé
pour moduler la prime commerciale lors des renouvellements tarifaires annuels des con-
trats en portefeuille.

Les données du portefeuille d’étude sur lesquelles est basée la mise en oeuvre pratique
des deux approches méthodologiques évoquées précédemment sont construites à partir
de données internes et externes. Les principales catégories de variables qui existent pour
caractériser le risque MRP sont: les caractéristiques liées à l’assuré, les caractéristiques
liées au local professionnel, les caractéristiques liées à l’entreprise, les informations géo-
graphiques ainsi que la sinistralité du client y compris sur ses autres contrats dommages.
Ces données requièrent divers traitements nécessaires à leur bonne exploitation au
sein des futurs modèles : présélection des facteurs de risque, encodage des variables qual-
itatives etc.

Après avoir traité les données pour qu’elles soient exploitables, puis les avoir explorées
au travers d’une analyse descriptive, on met en œuvre le processus de modélisation.
En général, il est initié par l’étape de sélection de variables, cruciale car nous disposons
d’une quantité très importante de variables. Les méthodes issues de l’apprentissage statis-
tique comme le gradient boosting machine (GBM) ou les forêts aléatoires ont le vent en
poupe notamment pour la sélection de variables car elles sont applicables sur un grand
nombre de variables avec un temps de calcul acceptable. Ainsi, le GBM est utilisé dans
les deux méthodes présentées dans ce mémoire, à la différence près que la méthode alter-
native fait précéder cette procédure d’une régression pénalisée de type LASSO qui a pour
double objectif de pré-sélectionner les variables catégorielles et d’effectuer des regroupe-
ments automatiques de modalités pour celles-ci.
L’étape suivante consiste à bâtir le modèle final et les deux approches diffèrent nettement.
L’approche traditionnelle utilise les variables les plus influentes issues du GBM comme
régresseurs dans un GLM ; tandis que la méthode alternative transforme directement
le GBM en structure linéaire.

vi
Une étape de simplification est ensuite généralement mise en œuvre : elle consiste
à grouper des modalités pour les variables catégorielles et à effectuer des opérations de
lissage pour les variables numériques. Elle permet de réduire le nombre de paramètres
du modèle à estimer et ainsi de diminuer le risque de sur-apprentissage.

On utilise un certain nombre d’outils pour l’étape de validation du modèle obtenu.


Les techniques de validation croisée sont utilisées à plusieurs niveaux dans le proces-
sus (de chacune des méthodes) pour limiter le risque de sur-apprentissage et renforcer la
robustesse des modèles.
Pour les modèles GLM, nous pouvons aussi approfondir la validation du modèle en
effectuant une analyse variable par variable dans laquelle on vérifie sur la base de test
l’adéquation des prédictions moyennes aux observations moyennes pour chacune des
modalités. On mesure la contribution marginale de chaque variable à la performance
du modèle GLM brut (quantifiée par l’indice de Gini) et on s’assure qu’elle est suffisante
pour rester dans le modèle final.

La courbe de lift est un outil de validation supplémentaire qui permet de comparer


les valeurs prédites aux valeurs observées, et ce, par segment de prédictions croissantes.

La figure 1 permet de visualiser les étapes réalisées dans cette étude afin de mener le
processus de modélisation tarifaire technique selon chaque approche.

Figure 1 – Récapitulatif des deux méthodes présentées

L’application sur la fréquence de dégâts des eaux MRP résulte en un modèle qui compte
six variables et vingt-huit paramètres dans l’approche classique contre quarante-six ré-
gresseurs et huit cent quarante-quatre paramètres dans l’approche innovante automa-
tique. Le modèle issu de la méthode innovante offre une performance supérieure à l’approche
classique : il permet une meilleure segmentation et une meilleure précision sur les don-

vii
nées d’étude (2012 à 2014) mais pas sur l’année complète suivante (2015).

L’actuaire peut obtenir un modèle bien plus parcimonieux avec la méthode alterna-
tive en diminuant arbitrairement la part d’importance cumulée requise pour la sélection
de variables. Par exemple, il suffit de conserver les dix variables les plus importantes pour
réduire de plus de moitié le nombre de paramètres: le modèle inclut alors l’ensemble
des six variables retenues dans le modèle issu de l’approche classique et offre une perfor-
mance plus qu’honorable en matière de tri par rapport à l’approche innovante originale,
et toujours bien au-dessus de celle du modèle traditionnel. Ce modèle parcimonieux perd
légèrement en précision sur les données d’étude mais en gagne sur l’année suivante.

Une fois les données exploitables et l’ensemble des outils programmés et maîtrisés,
quelques heures à une journée suffisent à l’actuaire tarificateur pour obtenir le modèle
final avec l’approche innovante automatisée, ce qui représente un atout certain au vu du
temps libéré pour l’analyse, tandis que cinq à sept jours sont requis pour une modélisa-
tion classique.

Deux utilisations opérationnelles à forte valeur ajoutée de la méthode innovante ont


déjà été identifiées pour l’équipe : le prototypage et la possibilité de challenger rapide-
ment les modèles existants.

L’approche classique bénéficie d’un gain de temps important sur l’étape de sélection
de variables grâce au gradient boosting, mais les nombreuses itérations manuelles néces-
saires par la suite sont chronophages même si elles permettent, dans le cadre de notre
portefeuille d’étude, de bâtir un modèle performant, très parcimonieux et où l’interprétabilité
est assurée par un regard métier tout au long du processus.

Néanmoins, le besoin de faire appel à des outils automatiques se fait de plus en plus
sentir dans les équipes d’actuariat produit au vu du nombre grandissant de modèles util-
isés et de la fréquence à laquelle ils doivent être mis à jour. L’approche innovante répond
à ce besoin en permettant un gain de temps considérable grâce une procédure quasi-
automatisée. L’actuaire doit néanmoins porter un regard critique sur le modèle obtenu et
contraindre le nombre de variables qu’il contient, car sa parcimonie et son interprétabil-
ité peuvent, à ce stade, s’avérer décevantes sans intervention de l’utilisateur.

En définitive, l’utilisation des outils de l’apprentissage statistique apporte des béné-


fices certains en termes de performance et de vélocité, l’expertise métier et l’opinion de
l’actuaire restent néanmoins cruciales pour répondre aux critères de transparence, de ro-
bustesse et d’applicabilité opérationnelle.

viii
Executive summary

The purpose of this dissertation is to take advantage of machine learning tools for the
construction of technical pricing models that are both robust and interpretable. Our ap-
proach consists in comparing a classical method and an original method (on which has
been developed an automated model production tool by AXA Global P&C) covering all
the stages of construction of a technical model, from the variable selection to the per-
formance measure. These two approaches are illustrated by an application for the Water
Damage cover frequency model of AXA France’s “MRP” offer, which is used to predict the
annual number of claims.

The first step in the non-life insurance contract pricing process is to estimate the ex-
pected future claims cost of a contract, called pure premium: this is the product of the
expected number of claims and the expected claim cost. These two components are mod-
eled independently by the actuaries, traditionally using generalized linear models (GLM).
Today, machine learning techniques often outperform classical GLMs.

The GLM parametric framework is particularly popular within the actuarial profes-
sion, as it offers easily interpretable results and quantifies the impact of each explanatory
variable on the response variable. The existence of distributions particularly adapted to
the nature of the modeled data encourages the use of these models, and also justifies the
frequency / cost distinction: counting data for the frequency, continuous data for the cost.
Another advantage of GLMs is the partial taking into account of non-linear effects
through the link function, which transforms the initially linear dependence structure be-
tween the response variable and the regressors.

The increasing volume of data processed requires the use of ever more powerful tools
to produce results in a reasonable time. In particular, the standard procedures for se-
lecting variables, which often run almost exhaustively across all possible combinations,
consume considerable computing time. To address this problem, machine learning offers
effective alternatives. In particular, ensemble methods such as gradient boosting, made
popular due to their velocity and their ability to process larger amounts of data. However,
they are criticized for their opacity, which compromises the interpretability and therefore
the auditability of the models produced (notably by the regulator and the risk manage-
ment department).

Our review of the recent actuarial literature published by the French Institute of Ac-
tuaries (IA) also reveals that, in non-life rating projects, machine learning techniques are
directly used to produce the final models, which are then often compared to a standard
GLM.
Our approach differs from these works by its objective of coupling GLM and machine
learning methods: we present in this paper two methods which will lead in fine to a GLM-

ix
type model. Maintaining a (pseudo-)linear structure makes it possible to guarantee the
legibility of the model and the use of the machine learning procedures, provides support
in variables selection while overcoming the computational problems inherent in this step.

Since personal insurance products have become a commodity because of a highly


competitive market, more and more players now have business customers as a strategic
target. AXA, leader of the MRP market in France, sees its customers and prospects in-
creasingly courted by competition: gaining the most accurate vision of risk through fine
segmentation and sophistication of models is therefore a strategic issue for it.
Another major challenge for AXA France is the technical management of the property
and casualty portfolios using the expected loss ratio (ELR), calculated as the ratio of the
pure premium estimate and the current paid premium, which reflects the estimated an-
nual individual technical profitability and which can be used to adjust the commercial
premium at the annual renewals of the portfolio contracts.

The study portfolio data on which the practical implementation of the two method-
ological approaches mentioned above is based on internal and external data. The main
categories of variables that exist to characterize the MRP risk are the characteristics re-
lated to the policyholder, the characteristics related to the business premises, the charac-
teristics related to the company, the geographical information as well as the claims expe-
rience of the customer including related to his other damage contracts.
This data requires various treatments necessary for good exploitation in future mod-
els: pre-selection of risk factors, encoding of qualitative variables, etc.

After having processed the data so that it can be exploited, then having explored it
through a descriptive analysis, we implement the modeling process.
In general, it is initiated by the variable selection step, which is crucial because we have a
very large quantity of variables. Methods derived from machine learning such as the gra-
dient boosting machine (GBM) or random forests are particularly popular for the feature
selection because they are applicable to a large number of variables with an acceptable
calculation time. Thus, the GBM is used in the two methods presented in this paper, with
the difference that the alternative method precedes this procedure with a penalized re-
gression of the LASSO type which has the dual purpose of pre-selecting the categorical
variables and make automatic groupings of their levels.
The next step is to build the final model and the two approaches differ significantly.
The traditional approach uses the most important variables from the GBM as re-
gressors in a GLM; while the alternative method directly transforms the GBM into a
linear structure.

A step of simplification is then generally run: it consists of grouping levels for the
categorical variables and performing smoothing operations for the numeric variables. It
makes it possible to reduce the number of parameters of the model to be estimated and
thus to reduce the risk of overfitting.

A number of tools are used for the model validation stage.


The techniques of cross-validation are used at several levels in the process (of each
method) to limit the risk of overfitting and reinforce the robustness of the models.
For GLMs, we can also deepen the validation of the model by performing a variable
by variable analysis in which we check on the test data set the adequacy of average pre-

x
dictions to average observations for each of the levels. We measure the marginal contri-
bution of each variable to the performance of the GLM model (quantified by the Gini
index) and we make sure that it is sufficient to remain in the final model.

The lift curve is an additional validation tool that makes it possible to compare the
predicted values with the observed values, and this, by segment of increasing predictions.
The figure 1 allows to visualize the steps realized in this study in order to follow the
process of technical pricing modeling according to each approach.

Figure 1 – Summary of the two methods presented

The application on the MRP water damage frequency results in a model with six vari-
ables and twenty-eight parameters from the classical method versus forty-six regressors
and eight hundred and forty-four parameters in the model derived from the automated
innovative approach. The model derived from the innovative method offers a perfor-
mance superior to the traditional approach: it allows a better segmentation and a better
precision on the study data (train and test data, from 2012 to 2014) but not on the follow-
ing complete year data set (2015).

The actuary can get a much more parsimonious model with the alternative method
by arbitrarily decreasing the cumulative importance portion required for variable selec-
tion. For example, it is enough to keep the ten most important variables to reduce by
more than half the number of parameters, and almost divide the number of regressors by
five : the model includes all six variables retained in the model derived from the classic
approach and offers a performance that is more than respectable in terms of sorting and
segmentation compared to the original innovative approach, but still well above that of
the traditional model. With this more parsimonious variant of the innovative approach,
the model loses slightly in precision on the study data but gains some in the following year.

Once the data is usable and all the tools programmed and mastered, a few hours to a
day are enough for the pricing actuary to obtain the final model with the innovative auto-

xi
mated approach, which is a definite asset in view of the time released for analysis, while
five to seven days are required for classical modeling.

Two added value operational uses of the innovative method have already been identi-
fied for the team: prototyping and the ability to quickly challenge existing models.

The classical approach benefits from a significant time saving on the variable selection
stage thanks to the gradient boosting, but the many manual iterations necessary there-
after are time-consuming even if they allow, within the framework of our study portfolio,
to build a powerful model, very parsimonious and where the interpretability is ensured
by a professional overview throughout the process.

Nevertheless, the need for automated tools is increasingly being felt by the actuarial
teams as a result of the growing number of models used and the frequency with which
they must be updated. The innovative approach responds to this need by allowing con-
siderable time savings thanks to a quasi-automated procedure. The actuary must never-
theless take a critical look at the model obtained and constrain the number of variables
it contains, because its parsimony and interpretability are disappointing without user in-
tervention.

In the end, the use of machine learning tools brings some benefits in terms of per-
formance and speed, but the business expertise and the opinion of the actuary are still
crucial to meet the criteria of transparency, robustness and operational applicability.

xii
Remerciements

Je souhaite d’abord remercier Guillaume GORGE, Responsable de la Direction de l’Offre


IARD Particuliers Professionnels chez Axa France, pour son investissement massif sur la
formation des actuaires et sa propension à insuffler une véritable énergie chez ses collab-
orateurs. Je tiens d’ailleurs à adresser mes remerciements à l’ensemble d’entre eux pour
leur bonne humeur et leur bienveillance.

Je remercie mon responsable Philippe LECOMTE qui m’a permis de suivre la forma-
tion du Centre d’Etudes Actuarielles.

Je souhaite exprimer toute ma gratitude envers ma tutrice de mémoire, Doan-Trang


NGUYEN TUAN, pour son encadrement régulier et avisé, qui m’a guidé avec intérêt et op-
timisme tout au long de ces travaux, et a largement contribué à l’achèvement de ce projet.

J’adresse notamment ma reconnaissance à Fleur LECARPENTIER, qui a dirigé l’équipe


Data Science chez Axa Global P&C conceptrice de la méthode innovante, pour avoir rendu
possible son étude dans ce mémoire alors qu’elle constitue un actif d’AXA assez différen-
ciant.

Je tiens à remercier aussi Zhen LI, Data Scientist chez AXA Global P&C, qui est l’auteur
principal de cet outil innovant et avec lequel j’ai pu échangé à tout moment sur mes ques-
tions techniques.

Enfin, aucun mot ne peut exprimer ma reconnaissance à mon épouse pour son sou-
tien inconditionnel et sur qui nos deux bébés ont pu compter pendant mes innombrables
heures consacrées à la préparation des examens du CEA et à l’élaboration de ce mémoire.

xiii
xiv
Sommaire

Introduction 1

1 Contexte et objectif 3
1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 L’assurance multirisque professionnelle chez AXA . . . . . . . . . . . 3
1.1.2 La sinistralité par garantie . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3 Généralités sur la tarification . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Etat de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Enjeux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Portefeuille d’étude 11
2.1 Construction de la base de données . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Traitement des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Nettoyage de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Création ou transformation de variables . . . . . . . . . . . . . . . . . 14
2.3 Statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1 Variable à modéliser: le nombre de sinistres . . . . . . . . . . . . . . . 15
2.3.2 Quelques statistiques sur les variables classiques . . . . . . . . . . . . 15

3 Modélisation: deux approches, comparaison des performances 19


3.1 Démarche globale et outils de validation . . . . . . . . . . . . . . . . . . . . . 19
3.1.1 Démarche globale de tarification . . . . . . . . . . . . . . . . . . . . . . 19
3.1.2 Outils de validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Méthode classique: gradient boosting puis modèle linéaire généralisé . . . . 26
3.2.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.2 Description de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.3 Mise en œuvre : résultats et performance . . . . . . . . . . . . . . . . . 33
3.3 Méthode alternative: linéarisation du gradient boosting . . . . . . . . . . . . 44
3.3.1 Préliminaire: la régression pénalisée LASSO . . . . . . . . . . . . . . . 44
3.3.2 Description de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.3 Mise en œuvre et résultats . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.4 Comparaison des méthodes . . . . . . . . . . . . . . . . . . . . . . . . 57

Conclusion et perspectives 61

A Annexes I

B Liste des acronymes III

C Bibliographie V

xv
SOMMAIRE

Liste des figures VII

xvi
Introduction

Les travaux présentés dans ce mémoire s’inscrivent dans le cadre du projet de création
d’une nouvelle offre multirisque professionnelle chez AXA France, qui requiert une re-
fonte complète du tarif. Cela conduit à se demander comment mettre à profit les outils
d’apprentissage statistique sous la contrainte d’obtenir au final un modèle technique tar-
ifaire qui soit à la fois robuste et interprétable. Ce double objectif permet de garder à
l’esprit que l’on doit aboutir in fine à une solution opérationnelle et industrialisable.
La pertinence de cette problématique s’est d’ailleurs confirmée au cours des travaux
préparatoires de la présente étude, au croisement de l’actuariat non-vie traditionnel et de
la data science : notre approche se distingue des travaux actuariels récents de par son ob-
jectif de coupler le modèle linéaire généralisé et les méthodes d’apprentissage statistique
afin de conserver la lisibilité du modèle tout en bénéficiant de la vélocité et de la capac-
ité à traiter des données plus volumineuses, mais aussi de la performance accrue de ces
algorithmes qui ont le vent en poupe. L’intensification de la concurrence sur la cible des
professionnels confère un caractère stratégique à l’acquisition de la vision la plus juste
du risque inhérent à ce produit grâce à une segmentation fine et à une sophistication des
modèles tarifaires.
On souhaite par exemple répondre à une série d’interrogations inhérentes au sujet :
opter pour un modèle linéaire généralisé in fine nuit-il à la performance permise par le
machine learning? Que vaut une approche innovante automatisée?
Notre démarche consiste à comparer une méthode classique et une méthode orig-
inale en couvrant toutes les étapes de construction d’un modèle technique, depuis la
sélection des variables à la mesure de performance. Intitulé "Tarif multirisque profes-
sionnelle: construction de modèles robustes et interprétables", ce mémoire tend ainsi
à démontrer que même si l’utilisation de l’apprentissage statistique apporte des béné-
fices certains en termes de performance et de rapidité, l’expertise métier et l’opinion de
l’actuaire restent néanmoins cruciales pour répondre aux critères d’interprétabilité, de
robustesse et d’applicabilité opérationnelle : on peut alors tout à fait bénéficier des atouts
offerts par ces algorithmes modernes en se contraignant à aboutir in fine à un modèle
linéaire généralisé qui soit robuste.
L’approche traditionnelle d’exploitation des méthodes d’apprentissage statistique con-
siste à mettre en œuvre un algorithme de gradient boosting pour la sélection des variables,
puis à intégrer les variables sélectionnées dans une régression classique de type modèle
linéaire généralisé (GLM). L’interprétabilité est ainsi assurée par la forme du GLM, priv-
ilégiée par les actuaires non-vie (il permet, entre autres, de quantifier l’impact de chaque
variable explicative sur la réponse), mais un processus itératif et manuel doit ensuite être
mis en oeuvre afin de s’assurer de la robustesse du modèle GLM final à retenir. Cette
méthode offre un gain de temps considérable sur l’étape de sélection de variables, mais
les nombreuses itérations manuelles nécessaires par la suite restent chronophages, même
si elles permettent, dans le cadre de notre portefeuille d’étude, de bâtir un modèle perfor-
mant, très parcimonieux et où la lisibilité est aussi assurée par un regard métier présent

1
SOMMAIRE

tout au long du processus.


Nous allons étudier la mise en œuvre d’une méthode alternative, exploitant le gradi-
ent boosting de bout en bout et donnant in fine une solution explicite et implémentable.
Elle consiste à transformer l’agrégat d’arbres décisionnels du modèle GBM en structure
linéaire. Cette méthode fait l’objet du développement d’un outil chez Axa Global P&C,
dont le but est de fournir une solution de production automatisée de modèles techniques,
répondant aux critères de robustesse et d’interprétabilité. Cette approche innovante of-
fre un gain de temps encore plus conséquent grâce une procédure quasi-automatisée.
L’actuaire doit néanmoins porter un regard critique sur le modèle obtenu et l’on recom-
mande de contraindre le nombre de variables qu’il contient, car sa parcimonie et son in-
terprétabilité se sont avérées décevantes sans intervention de l’actuaire tarificateur dans
notre cas d’application. Les résultats et la performance de cette méthode originale seront
comparés à ceux de la méthode classique, en prenant l’exemple du modèle de fréquence
pour la garantie “dégâts des eaux” de la MRP qui permet de prédire le nombre de sinistres
annuel.
Après un premier chapitre consacré aux contexte et objectif de cette étude, où l’on
observe, entre autres, qu’il rappelle le cadre général de la tarification en assurance non-
vie et synthétise l’état de l’art actuariel qui mêle apprentissage statistique et modélisation
tarifaire (1), l’étude du portefeuille permet en effet d’appréhender les données, les re-
traitements nécessaires à leur bonne exploitation au sein des futurs modèles, ainsi que
de les analyser afin de se familiariser avec leur structure (2).
Enfin, on verra dans un dernier chapitre consacré à la modélisation qui décrit la dé-
marche globale de tarification utilisée et met en évidence les différences entre les deux ap-
proches; il introduit en premier lieu les outils nécessaires à la compréhension de l’apprentissage
statistique, à celle des modèles utilisés ainsi que les outils de validation et de mesure de
performance de ces derniers. Pour chacune des deux méthodes, il la décrit étape par
étape, puis l’illustre par sa mise en oeuvre sur nos données d’application. Une analyse
critique des deux modèles obtenus est menée de pair avec une évaluation de leurs perfor-
mance et de leur robustesse. Enfin, il s’achève par une comparaison des méthodes et des
modèles générés (3).

2
Chapitre 1

Contexte et objectif

Cette première partie vise à rappeler ce qu’est l’assurance multirisque professionnelle


ainsi que la typologie des sinistres qui la caractérise. Elle esquisse aussi le cadre général
classique de la tarification en assurance non-vie dans lequel on se place. Ensuite, une re-
vue de littérature actuarielle récente sur l’utilisation des outils d’apprentissage statistique
pour la tarification non-vie est menée afin de préciser les avantages et inconvénients
qu’ils présentent par rapport aux traditionnels modèles linéaires généralisés. Enfin, on
définit précisément notre problématique et en quoi notre approche diffère des travaux
recensés ; on explicite le contexte de cette étude et on décrit les enjeux au coeur desquels
elle se situe, sans oublier les usages permis par les primes pures modélisées.

1.1 Contexte
1.1.1 L’assurance multirisque professionnelle chez AXA
La multirisque professionnelle (MRP) est un produit d’assurance qui permet une couver-
ture complète tant pour les biens que pour les responsabilités de l’entreprise. Ce produit
permet d’offrir aux travailleurs non salariés (TNS) (artisans, commerçants, professions
libérales) et très petites entreprises (TPE) une protection complète couvrant au sein d’un
même contrat les dommages aux biens de l’entreprise (locaux, matériel. . . ), sa respons-
abilité civile et sa perte d’exploitation.
Chez Axa France, le produit MRP est destiné aux entreprises ayant un chiffre d’affaires
inférieur ou égal à cinq millions d’euros, comptant jusqu’à quinze salariés et ne dépassant
pas trois mille mètres carrés de surface, au-delà d’un de ces critères c’est auprès d’Axa
IARD Entreprises que la solution sera proposée. Néanmoins, le bas de segment ciblé par
cette entité, les petites et moyennes entreprises (PME), sera adressé à travers le produit
"Multi-PME" qui partage la structure tarifaire de la MRP tandis que les autres segments
seront couverts par l’offre de multirisque entreprise (MRE).
Deux principales formules caractérisent l’offre MRP d’AXA France:
• une formule « Carte » qui permet à l’assuré de choisir des garanties individuelles à
la carte en fonction de ses besoins de couverture, à partir d’un socle de base.

• une formule packagée, dite « Spéciale » : chacune des offres spéciales est bâtie spéci-
fiquement pour une activité professionnelle précise afin de couvrir tous les risques
auxquels elle est exposée.
Le contrat MRP couvre les biens et responsabilités d’une entreprise à travers trois
types de garanties: les garanties dommages (incendie, dommages électriques, dégâts des

3
CHAPITRE 1. CONTEXTE ET OBJECTIF

eaux, bris de glace, vol. . . ), les garanties financières (pertes d’exploitation et perte de
valeur vénale), et la garantie responsabilité civile professionnelle. La section suivante
qualifie chacun de ces principaux risques au regard de sa sinistralité observée entre 2012
et 2014.

1.1.2 La sinistralité par garantie


La figure 1.1 laisse apparaître plusieurs faits remarquables:

• les sinistres incendie pèsent un tiers de la charge totale mais seulement 7% en nom-
bre: ils incluent en fait l’essentiel des sinistres graves;

• à l’inverse, les sinistres de type bris des glaces pèsent 16% en nombre, mais seule-
ment 5% de la charge totale;

• un tiers des sinistres sont de type dégâts des eaux (DDE): il s’agit de la nature de
sinistre la plus fréquente en MRP. Ils pèsent près d’un cinquième de la charge totale.

Figure 1.1 – La sinistralité MRP par garantie: répartition en nombre et en charge

L’incendie et la perte d’exploitation constituent donc des risques d’intensité tandis


que le dégât des eaux et le bris des glaces constituent typiquement des risques de fréquence.
La section qui suit permet de définir le cadre théorique général dans lequel on se place
afin de construire nos modèles de prime pure (ou prime technique).

1.1.3 Généralités sur la tarification


De la prime pure à la prime commerciale

Le processus de tarification de contrats d’assurance non-vie requiert plusieurs étapes


pour aboutir à la prime effectivement payée par le souscripteur (dite prime commerciale).
La première étape consiste à calculer l’espérance du risque que l’on appelle prime pure
; la seconde, à lui ajouter les chargements de gestion et d’acquisition permettant de sup-
porter les frais d’acquisition et d’administration de l’assureur pour obtenir la prime pure
chargée. Un chargement de sécurité est généralement intégré pour pallier à la volatilité
naturelle des sinistres : il permet de réduire la probabilité de ruine de l’assureur. Finale-
ment, cette prime technique chargée est ajustée en fonction de la politique commerciale
de la compagnie d’assurance pour aboutir à la prime commerciale.

4
CHAPITRE 1. CONTEXTE ET OBJECTIF

Segmentation

Le concept de la tarification segmentée consiste à séparer les assurés selon différents


critères de façon à ce que les risques au sein de chaque classe soient homogènes. En
effet, en assurance, l’hétérogénéité pose des problèmes, notamment liés au phénomène
d’anti-sélection. Si nous appliquions le même tarif à tous les assurés, les risques les plus
élevés choisiraient de s’assurer alors que les risques les plus faibles trouveraient la prime
trop chère et iraient s’assurer à la concurrence. Cela aurait pour conséquence une dégra-
dation rapide du résultat: on comprend donc ici l’importance de la segmentation.

Modèle collectif

L’assurance non-vie se distingue notamment de l’assurance vie tant par la survenance du


sinistre que par son coût. En effet, en assurance vie, la survenance du sinistre est certaine,
seule sa date est inconnue ; tandis qu’en assurance non-vie, sa survenance est probable
(avec une probabilité strictement comprise entre 0 et 1). Le coût du sinistre est rarement
connu à l’avance en assurance non-vie (on parle de remboursement indemnitaire alors
qu’il est essentiellement forfaitaire en assurances de personnes). Par conséquent, pour
modéliser la sinistralité d’un portefeuille de contrats d’assurance non-vie, on se place
dans le cadre traditionnel du modèle collectif qui permet de distinguer la fréquence de
sinistres par assuré (modèle de comptage) de leur coût (ou sévérité) quelque soit l’assuré
(modèle de montant).
La charge totale de sinistres S i d’un assuré i a alors la forme suivante :

Ni
X
Si = Wi ,k (1.1)
k=1

où Ni est le nombre aléatoire de sinistres de l’assuré i et Wi ,k est le coût de son k ème


sinistre, avec les hypothèses suivantes :

• les Wi ,k sont indépendants et identiquement distribués (i.i.d.), pour tout i et pour


tout k

• (Wi ,k )k >1 est indépendante de Ni pour tout i

Au-delà du fait qu’on modélise des risques non-vie, les arguments en faveur de cette
distinction entre fréquence et sévérité sont multiples. Tout d’abord, il n’y a pas de raison
particulière de penser que les déterminants de la fréquence et du coût des sinistres soient
les mêmes. Ensuite, la fréquence présente empiriquement un comportement beaucoup
plus stable que le coût, et le lien entre les facteurs de risque et la fréquence est générale-
ment davantage matériel. Il est donc recommandable de valoriser cette robustesse na-
turelle du modèle de fréquence, et de considérer la problématique de coût indépendam-
ment.
La tarification prime pure consiste à estimer la charge future espérée d’un contrat. On
passe donc l’équation précédente (1.1) à l’espérance:

5
CHAPITRE 1. CONTEXTE ET OBJECTIF

" # " Ã ¯ !#
Ni Ni ¯
E(S i ) = E =E E
X X
Wi ,k Wi ,k ¯Ni
¯
k=1 k=1
¯
= E [E (Ni Wi |Ni )] car (Wi ,k ) i.i.d.
= E [Ni E (Wi |Ni )]
= E [Ni E (Wi )] par indépendance de Wi et Ni
= E (Ni ) E (Wi )

La charge espérée de l’assuré i est donc égale au produit des espérances du nombre
de sinistres et du coût de sinistre. Rapportée à la durée d’exposition t i , elle constitue la
prime pure qui résulte du produit des deux composantes:
E(S i )
prime pure = fréquence × coût =
ti
nombre de sinistres E(Ni )
fréquence = =
exposition ti
charge de sinistres totale E(S i )
coût moyen = =
nombre de sinistres E(Ni )
L’exposition désigne la durée durant laquelle le risque est couvert, on parle aussi de
nombre d’années-police. Par exemple, un contrat souscrit le 1er juillet de l’année N et
toujours en cours au 31 décembre N a une exposition égale à 0, 5 année-police. Si un sin-
istre survenait sur ce contrat au cours de cette demi-année, on aurait donc schématique-
ment une fréquence observée de 200% car la fréquence est une moyenne annualisée: 1
sinistre sur une demi-année équivaut, en termes de risque, à en moyenne 2 sinistres par
an.
On a vu que la prime pure était classiquement composée des deux composantes fréquence
et sévérité qui sont alors modélisées indépendamment. Depuis une trentaine d’années,
les actuaires font appel aux generalized linear model ou modèle linéaire généralisé (GLM)
pour les modéliser mais des techniques de machine learning ou apprentissage automa-
tique/statistique (ML) issues de l’informatique statistique qui promettent des performances
accrues viennent désormais les concurrencer: on propose de passer en revue la littérature
actuarielle récente qui fait appel à l’apprentissage statistique dans le cadre de projets de
tarification non-vie.

1.2 Etat de l’art


Dans les derniers mémoires publiés sur la tarification non-vie, on remarque que les tech-
niques d’apprentissage statistique sont utilisées comme modèles finaux, puis comparés
à un GLM standard.
B ELLINA [2014] compare ainsi le GLM à des modèles classification and regression tree
(CART), puis à des méthodes qui les agrègent comme les random forest ou forêt aléatoire
(RF) et gradient boosting machine (GBM). Il montre que ces méthodes ensemblistes pal-
lient à la relative instabilité des arbres de type CART et améliorent la robustesse du mod-
èle. Il conclut que le GBM offre les meilleurs résultats mais que cela est indubitablement
lié à sa base de données et qu’il ne peut affirmer que les méthodes de ML sont toujours
meilleures que les GLM même si cela s’est avéré vrai dans son exemple d’application.

6
CHAPITRE 1. CONTEXTE ET OBJECTIF

PAGLIA [2010] compare lui aussi le GLM à l’algorithme CART qu’il modifie pour tenir
compte de la période d’exposition de l’assuré.
On rappelle précisément les hypothèses et concepts qui sous-tendent le ML dans la
sous-section 3.1.2.
G UILLOT [2015], lui, couvre un spectre plus étendu de la tarification non-vie à l’aide
d’outils de ML, puisque non seulement il compare le GLM avec un GLM étendu par des
splines, avec aussi un modèle additif généralisé ou generalized additive model (GAM)
et enfin avec une RF pour la modélisation des effets non linéaires; mais il met en œu-
vre aussi la méthode de pénalisation Least Absolute Shrinkage and Selection Operator
(LASSO) pour la sélection de variables et exploite une méthode de prise en compte in-
trinsèque d’interactions via une nouvelle forêt aléatoire.
G UILLOT [2015] liste aussi les avantages et limites des modèles GLM. Ces derniers
s’appuient sur une hypothèse de loi de probabilité pour estimer l’espérance de la sinistral-
ité. Ce cadre paramétrique est particulièrement populaire au sein de la profession actu-
arielle, puisqu’il offre des résultats facilement interprétables et qu’il permet de quantifier
l’impact de chaque variable explicative sur la variable réponse. L’existence de distribu-
tions particulièrement adaptées à la nature des données modélisées encourage l’usage de
ces modèles, et justifie également la distinction fréquence/coût : des données de comp-
tage pour la fréquence, des données continues pour le coût. Le principal avantage des
GLM par rapport aux régressions linéaires classiques est la prise en compte partielle d’effets
non linéaires à travers la fonction de lien, qui transforme la structure de dépendance ini-
tialement linéaire entre la variable réponse et les régresseurs. Celle-ci correspond générale-
ment à la fonction logarithmique en tarification non-vie, comme nous le verrons en page 29
dans la rubrique qui définit précisément les GLM. Cette fonction présente notamment la
spécificité d’être strictement monotone, ce qui implique que l’effet modélisé d’un pré-
dicteur donné sur la variable à prédire est systématiquement de signe constant. Cette
particularité ne permet donc pas de modéliser fidèlement, par exemple, les phénomènes
suivants :

• des impacts de signe contraire aux deux extrémités du domaine de définition d’un
certain régresseur (effets d’extrêmes)

• des ruptures de la relation de dépendance en des points de discontinuité précis


(effets de seuils)

• des bornes de la variable de sinistralité aux extrêmes (plancher et plafond)

• un comportement convexe (la fonction de lien logarithmique étant naturellement


concave)

Aussi, un modèle GLM offre en réalité une modélisation pseudo-linéaire, ce qui limite
fortement le pouvoir explicatif du modèle.
G UILLOT [2015] rappelle aussi certaines difficultés complémentaires rencontrées en
tarification non-vie.
Premièrement, l’exposition de chaque contrat au sein du portefeuille considéré im-
pacte la probabilité de survenance d’un sinistre: elle doit donc être intégrée au sein de
la modélisation. Il ne s’agit pas de pondérer simplement les observations en fonction de
leur exposition, ce qui introduirait un biais en faveur des contrats les plus exposés, mais
bien d’inclure cette variable au sein même de l’écriture de l’estimateur pour les GLM (cf
page 30). Le lecteur intéressé trouvera des détails supplémentaires sur ces techniques
chez PAGLIA [2010] ou C HARPENTIER [2013].

7
CHAPITRE 1. CONTEXTE ET OBJECTIF

Deuxièmement, la modélisation de la fréquence souffre aussi d’une autre difficulté


liée aux classes fortement déséquilibrées. En effet, les contrats sans sinistre sur la péri-
ode d’observation sont largement majoritaires au sein du portefeuille. Aussi, la qualité
de la prédiction de la fréquence de sinistres par police se mesure à la capacité du modèle
employé à détecter correctement une minorité d’observations, à savoir les polices sin-
istrées. Or les modèles traditionnels sont peu robustes en présence de classes fortement
minoritaires puisque la vraisemblance est une quantité moyennée, et sa maximisation ne
permet donc pas de tenir compte correctement de l’information fournie par ces obser-
vations. Cet enjeu de détection de classes déséquilibrées a été identifié comme l’un des
défis majeurs de l’apprentissage statistique. Cette difficulté n’est un véritable sujet que
lorsque l’effectif de la classe minoritaire est inférieur à 1% environ. Dans le cadre d’un
portefeuille professionnel, qui constituera les données d’étude de ce mémoire, il est donc
tout à fait plausible de rencontrer cette difficulté avec les sinistres des garanties incendie,
responsabilité civile ou perte d’exploitation.
Troisièmement, la volumétrie des bases de données traitées impose de recourir à des
outils toujours plus performants afin de produire des résultats en un temps raisonnable.
Ces problématiques computationnelles doivent donc être considérées avec attention
lors du choix des algorithmes employés par la suite, afin de s’assurer de la pertinence
opérationnelle de nos conclusions. En particulier, les procédures de sélection de variables
classiques, qui parcourent souvent de manière quasi-exhaustive l’ensemble des com-
binaisons possibles, sont ainsi consommatrices de temps de calcul considérables. En
réponse à cette problématique, l’apprentissage statistique offre des alternatives efficaces,
notamment avec les régressions pénalisées et la notion d’importance associée aux méth-
odes ensemblistes. Ces techniques alternatives seront largement utilisées au cours de
l’élaboration des modèles.
Enfin, les coefficients estimés par des modèles linéaires se rapportent à une seule vari-
able: il s’agit d’évaluer l’impact de chaque facteur de risque sur la sinistralité et ce, de
manière indépendante. Ces modèles classiques sont incapables de capter automatique-
ment des effets croisés entre plusieurs facteurs de risque (interactions), c’est-à-dire de
prendre en compte le comportement de la sinistralité lorsque deux prédicteurs évoluent
simultanément (PAGLIA [2010]).
Nous présentons dans ce mémoire deux méthodes qui aboutiront à un modèle de type
GLM afin de conserver les avantages énumérés précédemment; elles feront néanmoins
appel à des procédures issues de l’apprentissage statistique qui permettent d’apporter
une aide à la décision dans la sélection de variables tout en palliant aux problématiques
computationnelles inhérentes à cette étape.

1.3 Objectif
Les travaux présentés dans ce mémoire s’inscrivent dans le cadre du projet de création
d’une nouvelle offre MRP chez AXA France, qui motive une refonte complète du tarif. Il a
été décidé de construire un modèle de prime pure par garantie sous condition que le vol-
ume de données soit suffisant. Chacun de ces modèles résulte en fait de la combinaison
d’un modèle de fréquence et d’un modèle de coût.
En assurance multirisque professionnelle, le nombre de sinistres mérite une attention
toute particulière là où le coût des sinistres n’est habituellement pas sujet à une classifi-
cation aboutie. L’analyse des coûts de sinistres est sensiblement plus complexe que celle
de la fréquence. Là où tous les individus sont utilisés pour la modélisation du nombre
de sinistres, l’on comprend que seuls les contrats sinistrés doivent être considérés lors de

8
CHAPITRE 1. CONTEXTE ET OBJECTIF

l’estimation du coût moyen, ce qui limite le nombre d’observations. De plus, le coût des
sinistres est expliqué par des données exogènes bien au-delà de la base de données, c’est
pourquoi on a choisi d’illustrer les méthodes présentées dans ce mémoire avec un modèle
de fréquence. Néanmoins, la démarche de modélisation reste tout à fait similaire pour la
fréquence et la sévérité ; on prend comme données d’application le risque qui représente
le plus grand volume de sinistres en MRP: celui des DDE.
Notre approche se distingue des travaux actuariels cités ci-dessus de par son objectif
de coupler le GLM et les méthodes d’apprentissage statistique afin de conserver la lisi-
bilité du modèle et d’éviter l’aspect « boîte noire » de ces outils. On souhaite conserver
la structure des GLM essentiellement pour leur interprétabilité car l’actuaire tarificateur
doit pouvoir échanger de façon transparente sur le contenu des modèles avec différents
interlocuteurs comme sa hiérarchie, les agents généraux, les équipes CRM, la direction
de gestion des risques ; ce souci de la transparence est aussi crucial vis-à-vis du régula-
teur, ainsi que pour l’audit des modèles. L’utilisation des outils de ML est justifiée pour
leur vélocité, leur capacité à traiter des données plus volumineuses et leur performance
accrue. On devra être d’autant plus vigilant quant à la robustesse des modèles car leur
utilisation est au cœur d’enjeux stratégiques pour AXA France.

1.4 Enjeux
Les acteurs du marché de l’assurance non-vie se livrent une concurrence acharnée sur
les produits automobile et habitation, les durations raccourcissent avec la loi Hamon
qui facilite les résiliations et changements d’assureur, les marges fondent, ce qui rend
l’équilibre technique plus délicat à préserver. Les produits particuliers étant devenus une
commodité, de plus en plus d’acteurs ont désormais comme cible stratégique les clients
professionnels. Ainsi, on assiste ces dernières années à l’arrivée de nouveaux entrants
sur le marché de la MRP (en particulier les bancassureurs) et à une intensification de
campagnes publicitaires et d’efforts commerciaux pour conquérir cette clientèle. AXA,
occupant la première place du podium du marché MRP en France, voit ses clients et
prospects de plus en plus courtisés par la concurrence: acquérir la vision la plus juste
du risque grâce à une segmentation fine et une sophistication des modèles est donc un
enjeu stratégique pour elle.
Par conséquent, nous allons intégrer beaucoup d’informations dont AXA dispose (même
si certaines ne seront pas disponibles à la souscription d’une affaire nouvelle). Cela inclut,
par exemple, la sinistralité du client sur ses contrats AXA habitation et automobile. Ces
modèles tarifaires techniques peuvent ensuite être utilisés pour calculer l’expected loss ra-
tio (ELR) de chaque contrat en portefeuille. Ce ratio sinistres à prime espéré étant défini
de la manière suivante :

prime pure estimée


ELR = (1.2)
prime actuellement payée
Cet indicateur reflète la rentabilité technique annuelle estimée de façon individuelle
et pourra donc être utilisé pour moduler la prime commerciale lors des renouvellements
tarifaires annuels des contrats en portefeuille. Il permet aussi d’identifier finement les
segments sous-tarifés et sur-tarifés par les algorithmes de tarification en vigueur afin
d’opérer des ajustements pour ré-équilibrer leur tarification.
Pour la prochaine gamme MRP, on devra bâtir des variantes de nos modèles (ils seront
dits “contraints”) en suivant la même démarche de modélisation, mais en ôtant préalable-
ment les variables dont on ne dispose pas à la souscription, à moins qu’on puisse obtenir

9
CHAPITRE 1. CONTEXTE ET OBJECTIF

l’information auprès de l’assuré (antécédents de sinistres par exemple) ou bien grâce à la


récupération automatisée de données externes (par exemple, de la base SIRENE en open
data depuis 2017). On pourra alors calculer les ELR sur les affaires nouvelles et identi-
fier, par exemple que les nouveaux risques qui entrent en portefeuille n’affaiblissent pas
l’équilibre technique futur ou bien détecter les segments sur lesquels pèse un soupçon
d’anti-sélection, d’où, encore une fois, l’importance d’avoir des modèles de prime pure
robustes.

Le chapitre suivant présente notre portefeuille d’étude: de sa construction à partir de


données internes et externes, en passant par les traitements nécessaires pour l’étape de
modélisation qui sera détaillée dans le troisième chapitre. Il esquisse aussi quelques car-
actéristiques de la sinistralité multirisque professionnelle, et plus particulièrement du
risque de dégâts des eaux.

10
Chapitre 2

Portefeuille d’étude

L’objet principal de ce chapitre est de présenter les données du portefeuille d’étude sur
lesquelles est basée la mise en oeuvre pratique des deux approches méthodologiques évo-
quées précédemment.
On a bâti une base de données de taille satisfaisante inventoriant l’ensemble des con-
trats et sinistres relatifs à un portefeuille important, sur un large périmètre et un horizon
étendu. Ils doivent faire l’objet de plusieurs retraitements (statistiques ou non) néces-
saires à leur bonne exploitation au sein des futurs modèles : présélection des facteurs
de risque, encodage des variables qualitatives etc. Après la présentation du portefeuille
d’étude et de sa construction, la seconde partie de ce chapitre est dédiée à l’énumération
des différents traitements appliqués aux données; sa troisième et ultime partie présente
les résultats de quelques analyses descriptives permettant de se familiariser avec leur
structure.

2.1 Construction de la base de données


La base correspond à l’historique des années 2012 à 2014 du portefeuille multirisque pro-
fessionnelle d’AXA France. Elle fournit de nombreuses informations relatives aux assurés
et aux sinistres afférents à tous les contrats présents dans le portefeuille au cours de la
période d’observation.
Les données chiffrées précisées ci-après concernent uniquement les contrats MRP in-
cluant la garantie DDE ainsi que les sinistres de cette nature mais la constitution de la base
pour chacune des autres garanties est strictement similaire.
Ces données, relatives au risque DDE, représentent plus d’un million de lignes, cha-
cune correspondant à une image contrat. Elles constituent plus de 420 000 contrats dis-
tincts, l’ampleur de l’historique est estimée à plus de 850 000 années-police, grâce à la
donnée de l’exposition calculée pour chaque image contrat au sein du portefeuille. Chaque
image contrat est considérée comme une observation à part entière dans nos modélisa-
tions. La base contient les caractéristiques de plus de 35 000 sinistres, survenus à environ
30 000 assurés. Les données contiennent près de 400 variables qui proviennent de dif-
férentes sources de données (fig. 2.1), que l’on peut classer comme suit:

• Client:

– contrat
– comportemental
– client

11
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE

• Sinistralité:

– déclarée au contrat
– du contrat AXA, par nature de sinistre (UP= unité de prestation)
– du client AXA

• Local professionnel

• Géographique

• Externe

– SIRENE (base du système d’identification du répertoire des entreprises, gérée


par l’INSEE)

Figure 2.1 – Sources de données et types de variables

Face au grand nombre de facteurs de risque, on exclut empiriquement de nombreuses


variables qui nous paraissent a priori n’avoir aucun pouvoir explicatif, ou bien de nature
à biaiser le modèle. Par exemple, cette liste d’exclusion contient des variables de type
identificateur (numéro de client, numéro de sinistre, numéro de SIRET...), des cotisations
payées actuellement pour chaque garantie, des dates liées à des actes de gestion, des vari-
ables présentant une grande part de valeurs manquantes etc. Ces exclusions résultent en
une liste de 160 variables ; elle n’est pas définitive, car des exclusions supplémentaires
sont opérées par la suite (cf page 13).

Dates de vision des données Au-delà des trois années utilisées pour la modélisation
(2012 à 2014), on constitue pareillement la base relative à l’année 2015 qu’on utilise comme
base de test supplémentaire: on se place alors un an plus tard pour évaluer la robustesse
du modèle (on précise qu’aucune information de 2015 n’est utilisée dans la modélisa-
tion). Les contrats sont vus en fin d’année N et les images-contrats sont définies par la
date d’effet de l’affaire nouvelle et/ou celle du remplacement (de l’avenant) et/ou celle de
la résiliation. Les sinistres survenus en année N sont vus à fin mai de l’année N+2 afin de
ne pas omettre les tardifs pour le modèle de fréquence (ainsi que le coût final et réel de
chaque sinistre pour le modèle de sévérité).

Bases par garantie On a regroupé les différentes typologies de sinistres (ou unités de
prestation) sous douze garanties:

• incendie et risque divers

12
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE

• évènements climatiques

• dommages électriques

• dégâts des eaux

• bris des glaces

• vol et vandalisme

• bris de machine

• responsabilité civile professionnelle

• perte d’exploitation

• perte de valeur vénale

• marchandises en installations frigorifiques

• marchandises et matériel transportés

On modélise chaque garantie de manière indépendante et pour chacune d’entre elles


on bâtit un modèle de fréquence et un modèle de coût moyen (ou sévérité), soit au total
vingt-quatre modèles.

Crédit de franchise Une franchise modulable est définie pour chaque contrat MRP avec
un mécanisme particulier propre à la stratégie d’AXA France pour la fidélisation de ses
clients MRP: après vingt-quatre mois sans sinistre, un crédit de franchise est octroyé.
Ce crédit est renouvelable automatiquement, ce qui signifie que vingt-quatre mois après
chaque sinistre survenu, un assuré MRP bénéficie à nouveau du crédit de franchise. On
souhaite modéliser le coût total du sinistre (sans se préoccuper du reste à charge de l’assuré),
ce qui laisse la liberté de proposer par la suite différents niveaux de franchise dans la fu-
ture offre MRP. A cet égard, on a extrait des bases d’opérations comptables sinistres la
franchise effectivement déduite lors du règlement afin de l’ajouter à la charge dossier/dossier
(à charge de l’assureur qui est nette de recours).

2.2 Traitement des données


Des opérations de nettoyage et de transformation des données ont été nécessaires pour
les rendre propres et exploitables pour l’étape de modélisation.

2.2.1 Nettoyage de données


Les données nécessitent d’être nettoyées sur les deux dimensions.
Dimension verticale

• On supprime les variables de type identificateur (numéro de contrat, de client, d’unité


technique (code garantie).

13
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE

• On exclut aussi des variables d’antécédents de sinistres de type charge: ce choix


délibéré a été fait car on aurait du mal à communiquer sur une charge précédente
de l’assuré pour expliquer sa fréquence (on conserve toutefois les nombres de sin-
istres pour le modèle de fréquence) et on utilise les antécédents de charges pour le
modèle de sévérité.

• On se débarrasse des variables invariantes (elles n’ont qu’une modalité, et une valeur
manquante est considérée comme étant une modalité) et des variables catégorielles
à plus de 1024 modalités (limite du GBM dans R).
Dimension horizontale
• On ôte les lignes qui contiennent une exposition nulle ou bien les lignes avec sin-
istre(s) et un coût nul ou inférieur à cinq euros.

• On élimine les trois contrats qui ont eu cinq sinistres DDE sur un an ainsi que les
contrats groupements (qui ne font pas partie intégrante de la MRP, ou tout du moins
de la future offre).

• On écarte les contrats relatifs aux activités professionnelles pour lesquelles la garantie
est tarifée uniquement au cas par cas par les services de souscription/des engage-
ments d’AXA (risques sensibles).

2.2.2 Création ou transformation de variables


• L’utilisation du langage R nécessite que les variables catégorielles de type textuel
(ou character) soient transtypées en facteur (ou factor).

• On crée des variables de comptage sur 12, 24 et 36 mois précédant l’année d’étude
pour:

– le nombre de mises en demeure envoyées (retards de paiement)


– les antécédents de sinistres du client AXA
– les antécédents de sinistres du contrat MRP, détaillés par nature de sinistre

• On bâtit des variables croisées entre les antécédents de sinistres (de différentes na-
tures) déclarés à la souscription (sur ving-quatre mois) et une variable indiquant si
la souscription ou le dernier avenant a eu lieu il y a moins de vingt-quatre mois. Elle
permet de distinguer les sinistres étant réellement survenus dans les vingt-quatre
mois précédant l’année d’étude de ceux ayant eu lieu il y a peut-être une décennie
car ces variables d’antécédents ne sont mises à jour qu’en cas de remplacement de
la police.

• On réconcilie par fusion les variables qui ont la même signification mais des noms
différents; il s’agit typiquement des variables techniques de la formule Carte qui
proviennent d’une table différente de celle des formules packagées (comme la Spé-
ciale).

• On factorise (transtype en facteur) des variables catégorielles non ordinales consid-


érées comme numériques à tort par R.

• On fusionne plusieurs variables binaires en une unique variable exploitable: par


exemple, on crée la variable "type de responsabilité civile" à partir des quatre vari-
ables indicatrices RC "complète", "limitée", "réduite" et "interdite".

14
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE

2.3 Statistiques descriptives


Après quelques précisions sur la variable à expliquer (le nombre annuel de sinistres), nous
réalisons quelques analyses descriptives permettant de mieux appréhender la sinistralité
dégâts des eaux des professionnels, en amont de la modélisation.

2.3.1 Variable à modéliser: le nombre de sinistres


La base utilisée, issue de jointures successives des différentes sources mentionnées précédem-
ment, est constituée d’autant de lignes que d’images-contrat annuelles: concrètement,
un contrat en cours au cours des trois années d’étude 2012 à 2014 figure sur trois lignes,
pour lesquelles la variable nombre de sinistres correspond au nombre de sinistres sur-
venus au cours de la période intra-annuelle de chaque année d’étude où le contrat était
en vigueur.
On remarque que la fréquence de ce risque est relativement stable au-dessus de 4%
sur les trois années d’étude avec une tendance légèrement décroissante (figure 2.2).

Figure 2.2 – Fréquence DDE observée par année d’étude

2.3.2 Quelques statistiques sur les variables classiques


Les graphiques ci-après (figure 2.3) représente l’évolution de la sinistralité moyenne en
fonction de la valeur de quelques facteurs de risque classiques. Afin d’apprécier cette in-
teraction au regard de la répartition de l’exposition dans le portefeuille, la courbe de la
fréquence moyenne observée est accompagnée d’un histogramme de la variable explica-
tive. Les variables continues sont par ailleurs discrétisées par quantile de cinq pourcents
de l’exposition afin de faciliter l’analyse graphique.
La surface du local professionnel (fig. 2.3a) et le montant assuré en DDE (fig. 2.3b)
présentent un comportement globalement croissant vis-à-vis de la variable expliquée. Ce

15
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE

(a) Fréquence moyenne observée selon (b) Fréquence moyenne observée selon
la surface du local le contenu assuré en DDE

(c) Fréquence moyenne observée selon (d) Fréquence moyenne observée selon
la qualité de l’assuré la zone actuelle

Figure 2.3 – Fréquence moyenne en fonction de quelques variables standard

16
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE

phénomène se traduit d’une part, par le fait que plus un local est grand, plus le risque
DDE est important (de par la quantité assurable et le nombre de canalisations) et d’autre
part, que le capital assuré est probablement corrélé positivement à la surface (on le verra
plus loin). Le cas échéant, ce lien entre fréquence et capital pourrait alors être interprété
comme un indicateur de type comportemental: plus l’assuré se sent vulnérable, plus il va
avoir tendance à s’assurer pour un montant important.
La figure 2.3c, elle, fait apparaître que les assurés propriétaires de leur local profes-
sionnel ont tendance à avoir moins de sinistres (ou à moins les déclarer) que les locataires
(et les locataires pour compte). La zone géographique du modèle actuel, quant à elle,
présente une relation positive presque linéaire (fig. 2.3d)avec le nombre de sinistres DDE
(à l’exception des zones 2 et 3 de même niveau, qui pourraient a priori être fusionnées).

Ce portefeuille d’étude est le support sur lequel sera opérée la démarche de modélisation:
elle est décrite dans le troisième et dernier chapitre de ce mémoire.

17
CHAPITRE 2. PORTEFEUILLE D’ÉTUDE

18
Chapitre 3

Modélisation: deux approches,


comparaison des performances

“ Le boosting, c’est un peu l’expérience de la vie. . .


Premièrement, on fait des erreurs puis on les corrige. La personnalité
est souvent forgée par les erreurs commises, que l’on s’efforce de
corriger lorsqu’on est confrontés à des situations similaires. Toutes
nos erreurs vont ainsi avoir des poids plus ou moins forts dans leur
contribution à notre personnalité finale.
Deuxièmement, notre vie n’est pas gérée par une seule règle
universelle qui couvre toutes les situations, mais par de multiples
petites règles simples, dont l’assemblage se révèle très puissant. . . ”

L UTZ et B IERNAT [2015]

Ce chapitre constitue le cœur du mémoire puisqu’après avoir décrit la démarche glob-


ale de tarification utilisée et avoir fait apparaître les grandes différences d’approche entre
les deux méthodes, il introduit en premier lieu les outils de validation et de mesure de per-
formance des modèles, puis les outils nécessaires à la compréhension de l’apprentissage
statistique et à celle des modèles. Pour chacune des deux méthodes, il la décrit étape par
étape, puis l’illustre par sa mise en œuvre sur nos données d’application. Une analyse
critique des deux modèles obtenus est menée de pair avec une évaluation de leurs per-
formance et robustesse. Enfin, le chapitre s’achève par une comparaison des méthodes
et des modèles qui en sont issus.

3.1 Démarche globale et outils de validation


3.1.1 Démarche globale de tarification
Après avoir traité les données pour qu’elles soient exploitables, puis les avoir explorées au
travers d’une analyse descriptive, on met en œuvre le processus de modélisation.
En général, il est initié par l’étape de sélection de variables. Historiquement, cette sélec-
tion s’opère simultanément avec le choix du meilleur modèle grâce à des algorithmes pas
à pas (forward, backward ou stepwise) dont l’objet est l’optimisation selon des critères de
performance (comme les AIC ou BIC). On effectue alors une pré-sélection de variables
manuellement car ces méthodes sont coûteuses en temps de calcul. Ce dernier est expo-
nentiel avec le nombre de variables p puisque l’on dispose de 2p−1 modèles. Les méth-
odes issues de l’apprentissage statistique comme le gradient boosting machine (GBM) ou

19
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

les forêts aléatoires sont populaires de nos jours pour la sélection de variables car elles
sont applicables sur un grand nombre de variables avec un temps de calcul acceptable.
Ainsi, le GBM est utilisé dans les deux méthodes présentées dans ce mémoire, à la dif-
férence près que la méthode alternative fera précéder cette procédure d’une régression
pénalisée de type LASSO qui a pour double objectif de pré-sélectionner les variables caté-
gorielles et d’effectuer des regroupements automatiques de modalités pour celles-ci (fig-
ure 3.1).
L’étape suivante consiste à bâtir le modèle final et les deux approches diffèrent nettement.
L’approche traditionnelle consiste à prendre simplement comme liste de régresseurs la
liste des variables avec la plus forte influence relative et à les introduire dans un GLM ;
tandis que la méthode alternative transforme directement le GBM en structure linéaire.
Une étape de simplification est ensuite généralement de rigueur afin d’avoir un modèle
qui garde une certaine cohérence. Elle est effectuée manuellement dans la méthode clas-
sique grâce à des regroupements, ce qui permet de diminuer le nombre de paramètres du
modèle et d’accroître son pouvoir généralisant.
Enfin, il est d’usage de chercher l’influence d’interactions (ou croisements de deux vari-
ables) : par exemple, il est de notoriété publique que pour le risque automobile, l’interaction
ag e×sexe 1 est pertinente (par exemple, les jeunes conducteurs masculins ont une fréquence
bien plus élevée que les jeunes conductrices alors qu’il n’y a pas de différence de fréquence
entre les deux sexes pour les conducteurs de 30 à 50 ans). Il n’existe pas de méthode stan-
dard pour détecter les interactions qui soit computationnellement efficace et frugale ; ce
mémoire n’a pas vocation à approfondir cette étape.

Figure 3.1 – Récapitulatif des deux méthodes présentées

1
La réglementation en matière de segmentation tarifaire interdit désormais d’utiliser le critère du sexe
comme différenciation du risque.

20
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

3.1.2 Outils de validation

Contrairement à la statistique classique qui requiert de formuler des hypothèses sur la


structure et la distribution des données, la théorie de l’apprentissage statistique ne for-
mule qu’une seule hypothèse: les données à prédire, que nous noterons Y, sont générées
de façon i.i.d. par un processus P à partir du vecteur des variables explicatives X. Ainsi, le
but est de construire un algorithme qui va apprendre à prédire la valeur de Y en fonction
des valeurs explicatives X (i.e. E(Y|X)). De cet apprentissage résulte une fonction notée
fˆw (X) qui fait intervenir les variables X et un paramètre de complexité w qui désigne par
exemple le nombre de nœuds dans un arbre de décision ou le nombre d’arbres dans un
GBM. À mesure que l’algorithme “apprend”, cette fonction devient de plus en plus com-
plexe et permet de modéliser les singularités de la structure des données. Le critère d’arrêt
de l’algorithme d’apprentissage correspond à l’étape où la complexification du modèle
fˆw (X) conduit à diminuer ses performances de prédictions sur une autre base de don-
nées. Ce phénomène est appelé sur-apprentissage (ou overfitting en anglais, illustré par
la figure 3.2).

Figure 3.2 – Illustration du sur-apprentissage. source : Mémoire IA de B ELLINA [2014]

On décompose la somme des erreurs au carré afin de mieux interpréter ce phénomène


(en faisant abstraction de la complexité w pour alléger la notation ici):

21
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

E ( fˆ(X) − f (X))2 = E fˆ(X)2 − 2 f (X)E fˆ(X) + f (X)2


£ ¤ £ ¤ £ ¤
¤2 ¤2
= E fˆ(X)2 − E fˆ(X) + E fˆ(X) − 2 f (X)E fˆ(X) + f (X)2
£ ¤ £ £ £ ¤
| {z } | {z }
V[ fˆ(X)] (E[ fˆ(X)− f (Xř])2

= V[ fˆ(X)] + (E[ fˆ(X) − f (X)])2


= Variance + Biais2

L’estimation du modèle repose sur la minimisation de l’erreur. Si le modèle est très


simple, la variance est petite mais le biais est grand. Si, au contraire, le modèle est trop
paramétré, le biais est petit mais la variance est grande : cela caractérise le phénomène
de sur-apprentissage. Il y a donc un compromis à trouver entre biais et variance.
On peut mesurer les performances d’un modèle après avoir défini une fonction de
de risque R(Y, fˆw (X)) qui mesure la distance entre Y et son estimation fˆw (X). On appelle
erreur de généralisation l’erreur commise sur une base de données indépendante de la
base ayant servi à construire fˆw (X). Elle est définie comme étant l’espérance de l’erreur
sur une base indépendante notée Bt est :

Er r t est = E(R(Y, fˆw (X))|Bt est ) (3.1)

Lors de l’apprentissage, l’algorithme doit s’arrêter d’apprendre lorsque cette quantité


est minimisée. Toutefois, lors de l’apprentissage l’algorithme ne dispose que des N lignes
de la base de données et c’est donc l’erreur empirique sur la base d’apprentissage qui est
mesurée:
1
R(y i , fˆw (x i )
X
Er r t r ai ni ng = (3.2)
N xi ,y i ∈Bt r ai ni ng

La validation croisée permet en premier lieu d’évaluer empiriquement la performance


prédictive d’un modèle statistique en mesurant sa capacité à se généraliser à une base de
données indépendante de la base utilisée pour son estimation. Elle consiste à ajuster des
modèles qui minimisent Er r t est pour un nombre fini de bases de données. On découpe
la base de données en trois parties (si le nombre d’observations est suffisant), comme
indiqué sur la figure 3.3.
La première base appelée base d’apprentissage est utilisée pour construire fˆw (X).
La seconde base appelée base de validation est utilisée pour choisir le paramètre w qui
minimise l’erreur Er r v al i d at i on = E(R(Y, fˆw (X))|Bv al i d at i on ).
On peut représenter graphiquement ce choix en traçant l’évolution de l’erreur en fonc-
tion de w sur la base de validation: la complexité w optimale est alors celle qui minimise
cette erreur.
Enfin, la troisième base appelée base de test permer de mesurer l’erreur sur la base qui
n’a pas servi à entraîner le modèle (Er r t est ) et de comparer les performances de plusieurs
modèles même s’ils sont issus d’algorithmes d’apprentissage différents. Elle permet d’évaluer
objectivement l’erreur réelle.
Ainsi, le modèle fˆw (X) résultant de cette validation croisée est optimisé non pas pour don-
ner le meilleur ajustement sur la base de données (avec un fort risque de sur-apprentissage)
mais pour réduire l’erreur de la valeur prédite sur une autre base, ce qui permet de ren-
forcer la robustesse des résultats prédits.
La validation croisée n’a pas de fondement théorique mais s’avère être particulière-
ment efficace dans les problèmes de prédiction. Il faut toutefois garder à l’esprit que le

22
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Figure 3.3 – Notions de base d’apprentissage, de validation et de test

découpage inhérent à la technique réduit considérablement la taille de la base utilisée


pour l’apprentissage du modèle, ce qui impacte sa qualité.
En effet, les mesures calculées par validation croisée présentent le risque d’être dépen-
dantes vis-à-vis de la partition sélectionnée. Afin de s’affranchir de l’aspect arbitraire de
cette procédure, il est conseillé de la répéter en intervertissant les bases d’apprentissage
et de validation, c’est-à-dire de bâtir un second modèle sur la base de validation puis
d’évaluer sa performance sur la base d’apprentissage. Les mesures moyennées sur ces
deux modèles sont alors plus robustes et moins sensibles aux divergences de structure
entre les deux bases.
Pour aller plus loin, on peut échantillonner aléatoirement la base en plusieurs par-
titions apprentissage/validation indépendantes et moyenner les mesures obtenues sur
l’ensemble des partitions utilisées. Une version souvent utilisée est la technique des k-
fold, qui consiste à découper la base de données d’apprentissage/validation en k sous-
bases indépendantes de taille égale. Le modèle est alors bâti sur l’ensemble des k − 1
premières bases, puis sa performance est évaluée sur la k ème base, qui constitue alors la
base de validation. Cette étape est ensuite répétée pour les k − 1 autres partitions ap-
prentissage/validation possibles. Enfin, la valeur du w optimal est définie en minimisant
l’erreur de prédiction moyennée sur ces k configurations pour un jeu arbitraire de valeurs
candidates. Cette valeur w optimale est alors utilisée pour la construction du modèle fi-
nal sur la totalité de la base d’apprentissage/validation (on ne doit pas utiliser la base de
test pour la construction du modèle, qui ne sert qu’à mesurer l’erreur généralisée).
Une autre méthode de validation croisée simple consiste à prendre comme base de
test non pas un échantillon tiré aléatoirement, mais l’ensemble des individus de l’année
la plus récente: en entraînant par exemple le modèle sur les années N−2 à N, on évalue la
performance “future” (N + 1). On veillera toutefois à vérifier que la réponse moyenne ob-
servée ȳ N+1 ne varie pas substantiellement par rapport à la moyenne observée des années
utilisées pour la base d’apprentissage/validation avant de mettre en œuvre cette procé-
dure.
Notons que s’il n’y a pas de paramètre de complexité w (comme pour un GLM), l’approche
de validation croisée ne nécessite pas de base de validation et un découpage de la base de
données en deux suffit: une pour l’apprentissage et une pour le test.

23
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Figure 3.4 – Validation croisée par 5-fold. source : Mémoire IA de G UILLOT [2015]

Dans l’étape de sélection de variables, on utilise la méthode des k-fold pour calibrer
le méta-paramètre de la procédure LASSO (au sein de l’approche innovante) mais aussi
pour valider la sélection de variables issue des gradient boosting mis en œuvre (dans les
approches classique et alternative). Cette procédure s’appuyant sur k partitions est aussi
utilisée de façon différente dans le cadre de la modélisation GLM de l’approche tradition-
nelle (du fait de l’absence de méta-paramètre) elle permet de valider le modèle final en
évaluant la stabilité de ses coefficients et des indices de Gini obtenus pour les k mod-
èles entraînés. A titre informatif, une autre pratique existe qui consiste à bâtir un modèle
GLM final “moyen”, en définissant la valeur de chaque coefficient comme moyenne des
k coefficients.
Pour les modèles GLM, nous pouvons aussi approfondir la validation du modèle en
effectuant une analyse variable par variable dans laquelle on vérifie sur la base de test
l’adéquation des prédictions moyennes aux observations moyennes pour chacune des
modalités (cf rubrique 3.2.2).
La courbe de lift est un outil de validation qui permet de comparer les valeurs prédites
aux valeurs observées, et ce, par segment de prédictions croissantes. On utilise m seg-
ments d’exposition égale pour chacun desquels on calculera la prédiction moyenne et
l’observation moyenne : in fine, on a une courbe qui représente les valeurs prédites seg-
mentées et une seconde courbe qui montre les valeurs moyennes observées pour des
risques du même segment. Les courbes doivent être proches pour s’assurer que le mod-
èle est raisonnable. Si ce graphique fait apparaître un écart systématique et significatif
entre les deux courbes, cela signifie que le modèle n’est pas bien ajusté aux données. Ces
courbes de lift doivent être tracées pour les échantillons d’apprentissage et de test (illus-
tration en page 41).

24
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Mesure de la performance

Pour évaluer la performance d’un modèle, il est important d’analyser à la fois une mesure
de la précision et une mesure de pouvoir de tri car l’analyse d’un seul indicateur ne suffit
pas. Ici, on utilise principalement deux mesures pour évaluer la performance des modèles
bâtis: l’indice de Gini et la RMSE.
L’indice de Gini est un indicateur qui reflète “le bon classement” des risques, il ne
peut être utilisé seul car il ne tient pas compte des écarts absolus (seul l’ordre compte): il
constitue un indicateur du pouvoir discriminant. Il est donc conjointement utilisé avec
la classique root mean squared error ou racine carrée de la somme des erreurs élevées au
carré (RMSE) qui, elle, croît avec les écarts absolus et est un indicateur du pouvoir de pré-
diction.

Indice de Gini
L’indice de Gini est un indicateur mesurant la capacité de segmentation et de tri d’un
modèle. Il est calculé à partir de la fonction représentée par la courbe de Lorenz. Aussi
appelée courbe de gain, cette courbe, créée par L ORENZ [1905], permet de représenter
graphiquement les inégalités de revenus au sein d’une population. On lui associe la fonc-
tion qui calcule la part des revenus par rapport à la part des détenteurs. Dans le cadre
d’une étude de la fréquence de sinistre, la courbe de gain représente en abscisse la part
cumulée des expositions, et en ordonnée, la part cumulée du nombre de sinistres. L’indice
de Gini permet de comparer deux modèles ou de tester l’apport de nouvelles variables. Il
est calculé à partir de l’aire entre la bissectrice et la courbe de gain notée A, et correspond
à deux fois l’aire A de la figure 3.5.

Figure 3.5 – Calcul de l’indice de Gini comme étant deux fois l’aire A entre la courbe de gain et la
bissectrice. source : Mémoire IA de PARIENTE [2016]

La bissectrice représentée dans la figure 3.5 correspond à un modèle aléatoire ou à une


égalité parfaite lorsqu’on observe une fréquence de sinistre identique pour l’ensemble

25
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

des assurés : “x % des assurés ont x % du nombre de sinistres total”. Si l’aire entre la
courbe de gain et la bissectrice vaut A, et que celle au-dessus de la courbe de Lorenz vaut
B alors l’indice de Gini est défini comme
A
G=
A+B
Puisque A + B = 0, 5, l’indice de Gini est égal à G = 2A ou encore G = 1 − 2B.
Si l’on suppose que la courbe de gain est représentée par la fonction y = L(x), alors la
valeur de l’aire B peut s’exprimer avec l’intégrale:
Z 1
B = 1− L(x)d x,
0

ainsi l’indice de Gini peut s’écrire:


Z 1
G=2 L(x)d x − 1.
0

Erreur quadratique moyenne


La RMSE est calculée à partir des résidus issus de la différence entre les valeurs prédites
par le modèle ŷ i et les valeurs observées y i qu’elle agrège (n observations). Elle est sou-
vent utilisée car c’est une excellente métrique générale d’erreur pour les prédictions numériques.
s
1Xn
RMSE = (y i − ŷ i )2
n i
Précisons que notre exemple d’application étant un modèle de fréquence, les RMSE
calculées seront très faibles et les différences se feront sur les décimales, ce qui rend
l’interprétation des résultats moins évidente.

3.2 Méthode classique: gradient boosting puis modèle linéaire


généralisé
Dans cette rubrique sont introduits les principes des instruments de modélisation util-
isés dans la méthode classique: arbre, gradient boosting et GLM. En rubrique suivante
(3.2.2), la méthode de modélisation est exposée. La rubrique qui clôt cette partie détaille
la mise œuvre de cette méthode sur le risque dégâts des eaux de notre portefeuille d’étude,
puis révèle les résultats obtenus ainsi que les performances mesurées tout en exhibant
l’analyse critique à la fois technique mais aussi "métier" qu’on tente de mener tout au
long de ce processus.

3.2.1 Préliminaires
Principes de l’arbre décisionnel

Les explications ci-après sont largement inspirées par le chapitre dédié aux arbres de dé-
cision de L UTZ et B IERNAT [2015]. Un arbre décisionnel permet d’expliquer une valeur à
partir d’une série de variables discrètes ou continues. Si la variable à expliquer est con-
tinue, on parle alors d’arbre de régression ; si elle est qualitative, on parle d’arbre de classi-
fication. Il consiste à partitionner les individus en produisant des groupes d’individus les
plus homogènes possible du point de vue de la variable à prédire, en tenant compte d’une

26
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

hiérarchie de la capacité prédictive des variables explicatives. Cette hiérarchie permet de


visualiser les résultats dans un arbre et de constituer des règles explicatives explicites, ori-
entées métier. Chaque division est obtenue en sélectionnant la variable qui produira la
meilleure séparation des individus (elle maximisera le critère de séparation). Cette di-
vision définit des sous-populations, représentées par les nœuds de l’arbre. L’opération
est répétée pour chaque sous-population, jusqu’à ce que plus aucune séparation ne soit
possible ou qu’un critère d’arrêt soit rencontré. On obtient alors des nœuds terminaux,
appelés feuilles de l’arbre. Chaque feuille est caractérisée par un chemin spécifique à
travers l’arbre qu’on appelle une règle. L’ensemble des règles pour toutes les feuilles con-
stitue le modèle (fig. 3.6). Concrètement, une fois le modèle bâti, chaque individu se voit
attribué la moyenne de la feuille (ou classe) à laquelle il appartient.

Figure 3.6 – Structure d’un arbre de décision

Pour construire l’arbre attendu, trois principales questions doivent être résolues :

• Comment choisir la variable de division ?

• Comment couper les variables continues ?

• Comment définir la taille de l’arbre ? L’objectif est de situer le niveau de nœuds


optimal, pour trouver le juste équilibre entre sur-apprentissage et arbre trivial.

La réponse à ces questions dépend de l’algorithme utilisé pour constituer l’arbre. De


nombreux algorithmes existent mais ici nous ne parlerons que du CART, favori pour le
gradient boosting. Par exemple, pour choisir la variable de décision et traiter les variables
continues (on parle aussi de critère de split), l’algorithme CART se base sur l’indice de
Gini (indice de concentration). En ce qui concerne l’ajustement de la taille de l’arbre, on
procède par post-élagage pour le CART : on fait l’arbre le plus pur avec toute la segmenta-
tion, puis on utilise un critère pour comparer des arbres de tailles différentes. Le lecteur
intéressé par la caractérisation mathématique de l’homogénéité de chaque noeud peut,
par exemple, se référer au mémoire d’actuariat de PARIENTE [2016]. Nous n’en disons
pas davantage ici, car cette introduction aux arbres de décision n’est qu’un prélude pour
présenter une célèbre méthode ensembliste très utilisée aujourd’hui: le gradient boost-
ing.

Principes du gradient boosting

Les arbres décisionnels peuvent devenir instables et la variance de leur prédiction peut
atteindre des niveaux élevés. L’algorithme GBM [F RIEDMAN, 2001] appartient à la famille
des méthodes ensemblistes: elles mettent en concurrence plusieurs arbres lors du classe-
ment d’un nouvel individu. Elles permettent donc d’améliorer drastiquement les perfor-
mances des arbres et de les rendre moins sensibles aux idiosyncrasies des données. Mais
en contrepartie, elles donnent lieu à des règles moins lisibles d’un point de vue métier.

27
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Le principe général du GBM consiste à construire un ensemble d’arbres de manière


récursive. Chaque arbre est une version adaptative du précédent en donnant plus de
poids aux observations mal ajustées ou mal prédites. A l’issue de chaque arbre, on ob-
tient une prédiction et on peut alors calculer les résidus de l’estimation. L’arbre suivant
tient alors compte de ces résidus, sous la forme du gradient d’une fonction de perte de
ces derniers. Chaque arbre apprend donc des erreurs du précédent, et on retient les esti-
mations du dernier arbre.
Le principal défaut de ce type de méthodes ensemblistes basées sur les arbres est leur
opacité ou, en tout cas, leur interprétabilité assez limitée. F RIEDMAN [2001] a développé
une extension de l’influence relative pour les arbres boostés. Pour les méthodes arbores-
centes simples, l’influence relative d’une variable x j est approximée par
bJ2 = I2t
X
j (3.3)
splits sur x j

où I2t est l’amélioration empirique (égale à la diminution de l’erreur au carré) obtenue en


divisant sur x j sur ce point. L’extension de Friedman aux modèles GBM consiste à moyen-
ner l’influence relative de la variable x j à travers tous les arbres générés par l’algorithme
de boosting.
Ainsi, le métier peut avoir un début d’interprétation du modèle GBM en prenant con-
naissance des variables ordonnées de la plus influente à la moins influente.
Les principaux paramètres du gradient boosting machine sont:
• le shrinkage ou rétrécissement : il pondère l’apport de chaque nouvel arbre lors de
son ajout à la prédiction.

• le nombre d’arbres

• le nombre de variables choisies aléatoirement à chaque split

• la taille minimale des feuilles (ou nœuds terminaux)

• le nombre maximal de feuilles

• la profondeur des arbres

Principes du GLM

Introduits par M C C ULLAGH et N ELDER [1989], ces modèles qui permettent à la fois de
modéliser des comportements non linéaires et des distributions de résidus non gaussiens,
ont permis d’améliorer la qualité des modèles de prédictions du risque et sont aujourd’hui
largement utilisés par les compagnies d’assurance IARD.
Les modèles linéaires généralisés sont une extension de la régression linéaire ordi-
naire dans laquelle la variable réponse Yi peut-être vue comme une réalisation d’une dis-
tribution particulière de la famille exponentielle. En régression linéaire classique, une
variation constante d’un prédicteur entraîne une variation constante de la variable ex-
pliquée. La relation de dépendance entre la sortie et les régresseurs est donc exclusive-
ment linéaire. A contrario, les GLM permettent de modéliser une dépendance non linéaire
dans le sens où c’est l’image de la variable réponse par une fonction arbitraire g (appelée
fonction de lien) qui dépend linéairement des variables explicatives:
g (E(Yi |X i ) = X it β (3.4)
où X it désigne la transposée du vecteur d’observations X.
Un modèle GLM est donc constitué de trois éléments clés:

28
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

• une distribution de probabilité appartenant la famille exponentielle,

• un prédicteur linéaire X t β,

• une fonction de lien g monotone et différentiable.

La distribution de probabilité est choisie en accord avec la forme des données à mod-
éliser. Pour les données de comptage, il convient de choisir une distribution discrète : la
loi de Poisson. Pour les données de montant, qu’il est préférable d’employer une distri-
bution continue positive comme la loi Gamma. Ces lois doivent faire partie de la famille
exponentielle qui correspond aux densités de la forme :
yθ − b(θ)
· ¸
f θ,φ (y) = exp + c(y, φ)
a(φ)
Dans ce mémoire, l’illustration porte sur le nombre de sinistres modélisé par la loi
Poisson de paramètre λ dont on rappelle la densité:
λy
= exp yl n(λ) − λ − l n y! ,
£ ¤
f λ (y) = exp(−λ) (3.5)
y!
par rapport à la mesure de comptage, avec y ∈ N, θ = l n λ, a(φ) = φ = 1, b(θ) = exp(θ) = λ,
et c(y, φ) = −l n y! .
Le prédicteur linéaire hérite de la régression standard et implique deux contraintes
importantes sur la fonction de prédiction produite par le modèle:

• elle est pseudo-linéaire, modulo la transformation de la réponse par la fonction de


lien

• elle est additive en les facteurs de risque.

Enfin, la fonction de lien est un élément important du modèle puisqu’elle spécifie la


forme de la dépendance de l’espérance de la réponse en fonction de la structure linéaire.
On utilise un lien log pour les modèles de tarification car cette fonction permet d’obtenir
des modèles dits multiplicatifs, ce qui présente l’avantage de prendre en compte les effets
des facteurs de risque de façon proportionnelle.
Pour estimer les paramètres de la régression de Poisson, on applique la méthode du
maximum de vraisemblance (décrite par exemple par T RABELSI et R ESPRIGET).
L’équation (3.4) devient

log(E(Yi |X i )) = log(λi ) = X it β. (3.6)

Grâce à la densité (3.5), la vraisemblance du modèle s’écrit


n n
exp y i l n(λi ) − λi − l n(y i !)
Y Y £ ¤
L= f λi (y i ) =
i =1 i =1

La log-vraisemblance:
n n
y i l n(λi ) − λi − l n(y i !)
X X
log(L) = log( f λi (y i )) = (3.7)
i =1 i =1

Pour estimer les coefficients β, on doit résoudre le programme de maximisation de la


log-vraisemblance: " #
n
(y i l n(λi ) − λi − l n(y i !)) .
X
maxp (3.8)
β∈R i =1

29
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

On calcule les dérivées de cette quantité par rapport aux coefficients, que l’on cherche
à annuler
∂ log(L) X n ∂ ¡
y i X it β − λi − l n y i !
¢
s(β) = =
∂β i =1 ∂β
n t
n
y i X it − X it e Xi β = y i X it − X it λi
X X
=
i =1 i =1
n
(y i − λi )X it = 0.
X
=
i =1

Enfin, on utilise l’algorithme de Newton-Raphson (algorithme 1) pour résoudre ce sys-


tème d’équations.

répéter
(βk+1 ) = (βk ) + I−1 (βk )s(βk )
où I−1 est la matrice de variance-covariance
jusqu’à avoir k tel que (βk+1 ) ≈ (βk )
Algorithme 1 : Algorithme de Newton-Raphson appliqué à la régression de Poisson

Certains contrats ne sont pas en cours du 1er janvier au 31 décembre comme on l’a vu
en page 6. On doit tenir compte de ce paramètre pour ne pas modéliser de la même façon
deux risques similaires qui auraient été exposés sur des durées différentes. On fait souvent
l’hypothèse que le risque est linéaire avec l’exposition. Ainsi, pour expliquer la variable
aléatoire N d’espérance λ représentant le nombre de sinistres, on intègre l’exposition e
du contrat (durée mesurée en nombre d’années) dans la régression qui utilise un modèle
poissonnien et une fonction de lien logarithmique. Comme l’espérance de cette variable
devient λe, la régression s’écrit alors :

E[N|X, e] = e × exp Xβ = exp Xβ + l n(e)


¡ ¢ ¡ ¢

Cela revient donc à ajouter une variable explicative au sens du modèle dont le coef-
ficient associé β est connu et fixé à 1 (il n’a pas besoin d’être estimé). La variable ainsi
ajoutée s’appelle une variable offset.
Les GLM, issus de la statistique paramétrique, possèdent néanmoins des limites de
nature à réduire leur capacités prédictives : la détection et la modélisation d’interactions
entre variables ainsi que la modélisation de la prime en fonction de variables quantita-
tives (continues). S’agissant des interactions, elles doivent être spécifiées a priori dans
un modèle GLM. Si l’on dispose de 5 variables explicatives prenant chacune 10 valeurs, Il
existe 105 = 100000 interactions possibles dont il faut tester la significativité.

3.2.2 Description de la méthode


Dans la méthode classique se succèdent les grandes étapes suivantes:

• sélection de variables grâce au gradient boosting,

• modélisation GLM à partir de cette sélection de variables,

• simplification du modèle GLM,

• validation du modèle GLM.

30
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Dans la pratique, plusieurs itérations sont souvent requises entre les étapes de simplifi-
cation et de validation.
Notons aussi que l’ensemble des opérations sont appliquées uniquement sur la base
d’apprentissage.

Sélection des variables avec GBM

Le GBM peut être utilisé à des fins de prédiction mais il n’est employé ici que pour sélec-
tionner les variables en les hiérarchisant grâce à la notion d’importance relative ; on doit
paramétrer l’algorithme en fixant la profondeur des arbres à 1 (donc une seule division
par arbre, une seule variable de division).

Paramétrage du GBM
• On choisit le nombre d’arbres, le nombre d’observations par noeud et on utilise les
options de train.fraction et bag.fraction. A l’issue de chaque exécution, la procédure
issue du package GBM dans R permet d’identifier le nombre d’arbres optimal. Si
l’algorithme considère que le meilleur agrégat est constitué de la totalité des arbres
générés, c’est-à-dire qu’on a besoin du nombre d’arbres maximum paramétré, il est
probable que l’apprentissage soit inachevé. Pour pallier à cela, on peut envisager
au moins deux solutions:

– soit on augmente le nombre d’arbres


– soit on ajuste le paramètre de rétrécissement (shrinkage) à la hausse afin d’apprendre
plus vite, sans modifier le nombre maximal d’arbres

et on exécute à nouveau la procédure de façon récursive jusqu’à obtenir un nombre


d’arbres optimal qui ne dépasse pas un certain pourcentage du nombre d’arbres
maximum. Notre choix s’est porté sur la seconde solution qui est moins coûteuse
en termes de temps de calcul.
De façon symétrique, si la meilleure itération correspond aux premiers arbres obtenus,
il convient de réduire le paramètre de rétrécissement pour apprendre plus lente-
ment, et ainsi utiliser davantage d’arbres. On fixe un intervalle de nombres d’arbres
dans lequel le nombre optimal devra se situer comme condition d’arrêt.

• On trie la liste des variables par influence relative décroissante et on observe les
plus influentes.

• Afin de valider cette sélection de variables, on exécute des GBM en faisant appel à
la méthode de validation croisée k-fold (fonctionnalité optionnelle permise par le
package R gbm). Cette procédure permet de choisir le nombre optimal d’itérations
pour minimiser l’erreur (déviance) moyennée sur les k partitions (cf page 23).

• On itère l’étape précédente pour optimiser la vitesse d’apprentissage avec le paramètre


de rétrécissement comme on l’a décrit au début de ce paragraphe.

• On compare les deux listes de variables et on conserve les variables en commun


pour constituer la liste finale en sortie de ce GBM.

• Enfin , on entraîne un dernier gradient boosting qui a pour objectif d’évaluer l’importance
de chacune des variables sélectionnées plus précisément. Pour cela, on choisit un
nombre d’arbres plus important et on optimise la vitesse d’apprentissage comme
précédemment.

31
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Modélisation GLM

En entrée de ce modèle GLM, c’est la liste de variables sélectionnées par la modélisa-


tion GBM et ordonnée par importance relative décroissante qui fait office de régresseurs.
L’entraînement de ce premier GLM brut est effectué sur la base d’apprentissage. On ap-
plique ensuite le modèle obtenu pour prédire la fréquence des contrats de la base de test.
On évalue ensuite la performance du modèle sur les deux échantillons à l’aide de courbes
de gain et de l’indice de Gini.
On souhaite aussi évaluer l’importance de chaque variable (si cette notion peut avoir un
sens pour un GLM avec une fonction de lien logarithmique qui le rend multiplicatif ). Plus
précisément, on cherche à mesurer la contribution marginale de chaque variable à la
performance du modèle GLM brut (quantifiée par l’indice de Gini). L’algorithme, de type
forward, consiste à entraîner successivement les modèles en ajoutant les régresseurs un
par un (plus précisément, celui qui permet de maximiser l’indice de Gini obtenu à chaque
itération) et en mesurant le gain de performance lié au régresseur ajouté.
Données : échantillon d’apprentissage, liste initiale k des régresseurs
Résultat : calcul de la contribution marginale de chaque variable au Gini du GLM

initialiser la liste m des régresseurs ordonnés à ;


initialiser de la liste n des régresseurs restants avec l
pour i ← 1 à k faire
pour chaque j de n faire
entraîner un GLM avec j + les régresseurs de m
calculer et stocker le Gini du modèle
fin
ajouter le régresseur de n qui maximise le Gini à m, puis l’ôter de n
stocker Gi l’indice de Gini du modèle
fin
pour i ← 1 à m faire
G
r at i o i ← G i
k
c i ← r at i o i − r at i o i −1
fin
Algorithme 2 : Contribution marginale au Gini du GLM
Notons que le calcul de cette contribution marginale est fortement dépendant de
l’ordre des variables. Il arrive parfois que, dans la boucle imbriquée, l’indice de Gini soit
à peine meilleur avec un régresseur donné qu’avec un autre car les deux sont corrélés: le
second aura alors une contribution marginale bien plus faible. La différence de hiérarchie
dans l’“importance” des variables entre le GLM et le GBM mériterait d’être approfondie.
Par ailleurs, on pourrait décider d’éliminer les variables dont la contribution marginale
est faible ou nulle dans ce GLM, mais on accorde encore du crédit au GBM qui les a sélec-
tionnées: on exécute au préalable des opérations de simplification, puis on mesure leurs
corrélations avant d’éventuellement opter pour leur exclusion.

Simplification du modèle GLM

La simplification consiste à grouper des modalités pour les variables catégorielles et à


effectuer des opérations de lissage pour les variables numériques. Elle permet de ré-
duire le nombre de paramètres du modèle à estimer et ainsi de diminuer le risque de sur-
apprentissage (et par conséquent, d’améliorer sa robustesse). Attention, paradoxalement,

32
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

la simplification peut aussi parfois accroître le risque de sur-apprentissage, d’où l’intérêt


de vérifier à la fin l’adéquation entre les moyennes prédites et observées sur l’échantillon
de test. Aussi, on rappelle que l’ensemble des opérations suivantes sont effectuées sur la
base d’apprentissage.

D’abord sur la base de la fréquence observée moyenne Pour chacune des variables caté-
gorielles:
• On effectue des regroupements de modalités représentant de faibles volumes / ex-
positions de façon à obtenir 5% d’exposition dans chaque modalité (sauf exception)
et on ajoute une modalité pour les valeurs manquantes ou non renseignées.

• On groupe certaines modalités par paire sur la base de fréquences égales mais aussi
de l’opinion de l’actuaire et/ou de l’expert métier.

• On s’assure de la consistance temporelle de la tendance observée: cela signifie que


les courbes pour chaque année d’étude doivent avoir les mêmes allures.
Pour chacune des variables numériques :
• On leur applique une discrétisation selon des quantiles de 5% afin d’avoir un maxi-
mum de 20 modalités. Ces quantiles sont basés sur l’exposition (nombre d’années-
polices) ; en clair, dans chacune des classes on a 5% de l’exposition totale et non du
nombre d’observations (i.e. d’images-contrat).
Cette opération de discrétisation est une pratique de marché pour deux raisons.
Premièrement, la construction de variables catégorielles permet de tenir compte
des effets non linéaires (non monotonie, convexité par exemple). Deuxièmement,
cette procédure permet de générer des tarifs simples, homogènes par classe de
risque et directement utilisables dans la politique de souscription. Contraindre
chaque modalité à représenter au moins 5% de l’exposition permet de limiter le
nombre de paramètres du modèle.

• On regroupe également des modalités en cas de « creux » difficilement explicable,


quand une tendance monotone est présente (au moins localement).

On entraîne un nouveau GLM, puis on ajoute la courbe de la fréquence prédite moyenne.


Pour chaque variable, on vérifie que :
• les prédictions sont proches des valeurs observées

• la tendance des prédictions est similaire à celle des observations (sinon on suspecte
que le signal est déjà capté par une autre variable, à confirmer par le calcul des
corrélations)
On mesure les corrélations en regard des comportements erratiques/observés dans
l’étape précédente.
Enfin, on décide éventuellement de conserver une seule variable parmi les couples de
variables très corrélées.

3.2.3 Mise en œuvre : résultats et performance


La base d’apprentissage sur laquelle est appliqué le processus de modélisation présenté
est générée par un tirage aléatoire de 80% des observations.

33
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Sélection des variables En entrée de cette étape GBM, on compte 141 régresseurs. Le
paramétrage initial du GBM est le suivant:

• nombre d’arbres : 300

• nombre d’observation minimal par noeud: 100

• train.fraction: 1,0

• bag.fraction: 0,8

• shrinkage: 0,05

On optimise le shrinkage comme décrit dans la section 3.2.2 et in fine, il prend une valeur
de 0,378 après une petite dizaine d’itérations: l’agrégat des 285 premiers arbres est alors
optimal. Le pouvoir prédictif semble concentré sur les dix variables les plus influentes. On
souhaite ensuite confronter cette liste avec le résultat de la même procédure paramétrée
avec une validation croisée de type 5-fold mais elle échoue, limitée par la mémoire vive
de la machine. On parvient néanmoins à l’exécuter en 2-fold et les résultats sont très sim-
ilaires pour les 10 variables les plus influentes (voir figure 3.7) : 8 variables sont identiques
et dans le même ordre à l’exception de la surface et du capital assuré en incendie.

Figure 3.7 – Variables les plus influentes, en sortie de GBM sans et avec 2-fold

On conserve uniquement les 10 variables les plus influentes de la version issue de la


validation 2-fold et on entraîne le GBM final avec 1000 arbres ; le shrinkage optimal est de
0.022. Par conséquent, en soumettant à l’algorithme 14 fois moins de variables, il peut se
permettre de faire des pas 17 fois plus petits pour atteindre l’optimalité.
On observe une forte concentration de l’information sur les 3 premières variables (fig-
ure 3.8a). Les performances de ce modèle sont très bonnes avec des courbes de gain
régulières et un écart acceptable de Gini entre les échantillons d’apprentissage et de test
(figure 3.8b).

Modélisations GLM Le modèle GLM brut (i.e. sans retraitement) avec la sélection de 10
variables opérée par le GBM final coûte environ 2 points de Gini sur les deux échantillons
(0,4212 et 0,4122).
On mesure les corrélations (plus précisément les associations) entre ces 10 variables
grâce au V de Cramér (figure 3.9).

34
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

(a) Influence relative des variables du GBM final (b) Courbes de gain et Gini du GBM final sur les
échantillons d’apprentissage et de test

Figure 3.8 – Résultats du modèle GBM final avec 10 variables et 1000 arbres

Figure 3.9 – Matrice de "corrélations" des variables issues du GBM

35
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Les variables qu’on exclut de notre modèle final sont

• le nombre de chambres,

• le nombre de sinistres DDE du contrat lors des 24 derniers mois,

• le capital assuré DDE,

• ainsi que la formule commerciale.

Dès lors, les six variables conservées dans le modèle final sont dans la figure 3.13.

Simplifications du modèle

Simplification d’une variable numérique Le graphique de la fréquence par rapport


à une surface continue (figure 3.10a) est difficilement exploitable. Après une discrétisa-
tion en 20 modalités (figure 3.10b), on observe:

• une nette sur-sinistralité pour les locaux de moins de 15 m² par rapport à ceux de
15 à 45 m²

• une tendance croissante à partir de 15 m²,

• avec des creux pour 10 m² supplémentaires ce qui nous semble difficilement expli-
cable ; on veillera donc, par exemple, toutes choses égales par ailleurs, à ce qu’un
local de 91 m² ne paie pas strictement moins qu’un local de 90 m².

A la fin de la procédure de simplification, on aboutit à six catégories de surface (fig-


ure 3.10c).

Simplification d’une variable catégorielle Pour la classe de risque DDE liée à l’activité
professionnelle, on a fait le choix d’inclure les modalités "vide" ou "manquante" dans la
classe intermédiaire n°2 qui avait la fréquence observée la plus proche (figure 3.11).

Résultats obtenus

Modèle final Les premiers indicateurs que l’on regarde pour préjuger de la qualité
de notre modèle sont calculés sur les données d’apprentissage, de test et de l’année suiv-
ante (figure 3.12). La fréquence moyenne prédite est parfaitement ajustée à la moyenne
observée sur l’échantillon d’apprentissage, et sur-estime de 0,012 point sur l’échantillon
de test. Un point de Gini est perdu lors du test, ce qui n’est pas négligeable, mais n’est pas
non plus assez important pour avoir des soupçons de sur-apprentissage (cela équivaut
à une baisse de 2,36% du Gini) tandis que l’erreur moyenne quadratique apparaît stable
(elle baisse légèrement mais on s’attendait logiquement à une légère hausse).
La figure 3.13 fait clairement apparaître que la localisation géographique du risque,
à elle seule, génère plus de 65% de la performance du modèle (mesurée par l’indice de
Gini). Ajouter deux autres variables (la nature de l’activité professionnelle et la surface)
permet d’atteindre 92%. La présence d’antécédents de sinistre du même type chez AXA
apporte près de 6% de la performance finale, la valeur du contenu assuré y contribue à
hauteur de 1,6%. On a ici un modèle GLM avec 4 variables qui offre un Gini de 0,42 ce
qui est remarquable. Le choix de conserver la sixième variable est clairement discutable
et dépend du niveau de parcimonie souhaité.

36
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

(a) Fréquence moyenne observée avant discréti- (b) Fréquence moyenne observée et prédite
sation après discrétisation

(c) Fréquence moyenne observée et prédite


après simplification

Figure 3.10 – Exemple de simplification d’une variable numérique: la surface du local.

(a) Fréquence moyenne observée avant simpli- (b) Fréquences moyennes observées et prédites
fication après simplification

Figure 3.11 – Exemple de simplification d’une variable catégorielle: la classe de risque DDE.

37
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Figure 3.12 – Modèle GLM final: indicateurs principaux

Figure 3.13 – Modèle GLM final, granularité et apport de chaque variable

Prédictions moyennes par variable Les graphiques de la sinistralité prédite en fonc-


tion de l’évolution d’un facteur de risque donné (en figure 3.14) permettent d’apprécier
les impacts univariés modélisés.
Pour les antécédents du sinistre (figures 3.14d et 3.14f), le modèle est bien ajusté, il
sous-estime légèrement la fréquence des sinistrés. Quant au signal géographique (fig-
ure 3.14a), le modèle a tendance à surestimer la fréquence de la plupart des zones. Le
modèle surestime aussi la fréquence des grandes surfaces (supérieures ou égales à 340 m²,
figure 3.14c). Il s’ajuste parfaitement aux classes de risque (figure 3.14b)et sous-estime
légèrement les risques ayant un contenu entre 15 400 et 30 500 e et surestime modéré-
ment ceux avec un contenu supérieur à 67 200 e(figure 3.14e).

Coefficients et interprétation La localisation géographique du local professionnel


met en évidence un rapport de 1 à presque 4 entre les zones les moins risquées et les plus
risquées (cf figure A.1a). On parle aussi de spread de 300% pour un tel écart entre le plus
petit coefficient et le plus élevé.
Le ratio important 3 : 1 en fonction de l’activité professionnelle (à travers la classe de
risque DDE) révèle que, comme nous le verrons pour la surface, c’est le nombre impor-
tant de points d’eau et canalisations qui est ici en jeu: la classe 3 regroupant les hôtels et
hammams, spas et saunas (cf figure A.1b).
Les sinistres DDE ont une tendance à être sériels. Des sinistres de même nature étants
survenus sur un contrat ou déclarés à sa souscription multiplient le risque d’occurrence
d’un nouveau sinistre de 1 à 3 (en fonction du nombre, cf figure A.1b).
La fréquence DDE est aussi croissante avec la surface du local. On suppose qu’en
fait cela traduit qu’elle est liée avec le nombre de canalisations et leur longueur (elles-
mêmes liées avec la surface). On note aussi une sur-sinistralité pour les risques avec une
surface non déclarée ou inférieure à 15 m2 ( qui représentent respectivement 3% et 2% du
portefeuille) à peu près équivalente à la sinistralité des 28 à 50 m2 (cf figure A.1c).
L’occurrence du risque est aussi croissante avec le capital assuré en incendie (cf figure
A.1e).
Il semble, aux premiers abords, curieux que le choix du montant assuré en incendie
soit fait plutôt que celui au titre du DDE. En fait, pour les formules commerciales pack-
agées MRP d’AXA France, on ne demande qu’une valeur de contenu qui sera enregistrée

38
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

(a) Zonier fréquence DDE (b) Classe de risque de l’activité professionnelle

(c) Surface du local (d) Nombre de sinistres DDE AXA sur 36M

(e) Capital assuré en incendie (f) Sinistres DDE déclarés à la souscription

Figure 3.14 – Fréquences moyennes prédites et observées pour chaque variable du modèle GLM
final obtenu

39
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

dans ce champ de capital incendie et le montant assuré en DDE y sera strictement égal.
Ce prédicteur est donc bien mieux renseigné. Pour les formules non packagées ou à la
carte, on a aussi observé que les distributeurs d’AXA ont souvent tendance à déterminer
le capital assuré en DDE comme un certain pourcentage du capital incendie, d’où une
corrélation très importante entre les deux montants (3.9).

(a) Zonier fréquence DDE (b) Classe de risque de l’activité professionnelle

Figure 3.15 – Coefficients avec intervalle de confiance pour les deux variables les plus influentes
du modèle GLM final obtenu avec la méthode classique

Courbe de lift Les courbes des fréquences observées et prédites par quantile (fig-
ure 3.16) sont très proches pour la plupart des segments ; on note néanmoins des faib-
lesses du modèle pour les segments extrêmes :

• le segment correspondant aux 5% des risques avec la fréquence prédite la plus faible
a, en fait, une fréquence observée beaucoup plus élevée: donc le modèle ne permet
pas d’identifier le segment des moins risqués.

• les segments correspondant aux 5% des risques avec la fréquence prédite la plus
élevée a, quant à lui, une fréquence observée moins élevée: donc le modèle identifie
correctement le segment des plus risqués mais il sur-estime un peu leur fréquence.

On ne constate pas d’écart systématique entre les deux courbes ; la courbe des fréquences
observées oscille légèrement parfois autour de celle des prédictions ce qui nous conforte
dans la robustesse du modèle pour 90% des risques, malgré les réserves exprimées ci-
dessus sur les segments extrêmes. Notons que ces observations sont valables tant pour
l’échantillon d’apprentissage que pour l’échantillon de test.

Consistance temporelle Les tendances des fréquences selon chaque variable sont
bien consistantes dans le temps sur les trois années d’étude 2012 à 2014.

Validation du modèle par 10-fold On découpe la base d’apprentissage en dix parti-


tions: neuf sont utilisées pour entraîner un modèle et la dixième comme partition de test.
In fine, on a dix modèles pour lesquels on peut calculer dix indices de Gini sur chaque
sous-base d’apprentissage et dix sur chaque partition de test. On est aussi en mesure
d’évaluer la variabilité des coefficients des dix modèles. La stabilité de l’indice de Gini à
travers les dix modèles sur leurs partitions d’apprentissage est remarquable.

40
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

(a) Courbe de lift sur l’échantillon (b) Courbe de lift sur l’échantillon de test
d’apprentissage

Figure 3.16 – Courbes de lift du modèle GLM final obtenu

L’évolution de l’indice sur les partitions de test est conforme à l’attendu (un peu au-
dessous du niveau des échantillons d’entraînement) excepté pour les modèles numéros
2 et 10 qui sont situés au-dessus de la performance sur les 9 partitions d’apprentissage
(cf figure 3.18). Du côté des dix jeux de coefficients (fig 3.19), la volatilité des coefficients
semble suffisamment limitée, à l’exception peut-être du sixième facteur de risque (relatif
aux sinistres DDE déclarés à la souscription) où elle est un peu plus prononcée (fig 3.19f).
La conjonction de ces éléments concourent à alimenter notre confiance dans la ro-
bustesse du modèle final issu de la méthode traditionnelle.

41
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

(a) Zonier fréquence DDE (b) Classe de risque de l’activité professionnelle

(c) Surface du local (d) Nombre de sinistres DDE survenus sur le


contrat lors des 36 derniers mois

(e) Capital assuré en incendie (f) Sinistres DDE déclarés à la souscription

Figure 3.17 – Fréquences moyennes relatives observées de 2012 à 2014 pour chaque variable du
modèle GLM final obtenu

42
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Figure 3.18 – Validation du modèle final par 10-fold: indices de Gini sur les partitions
d’entraînement et de test

(a) Zonier fréquence DDE (b) Classe de risque de l’activité (c) Surface du local
professionnelle

(d) Nombre de sinistres DDE (e) Capital assuré en incendie (f ) Sinistres DDE déclarés à la
survenus sur le contrat lors des souscription
36 derniers mois

Figure 3.19 – Validation croisée des coefficients du modèle GLM final par 10-fold

43
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

3.3 Méthode alternative: linéarisation du gradient boost-


ing
Dans cette première rubrique sont exposés les grands principes qui régissent la régression
régularisée de type LASSO qui sera employée dans la méthode innovante comme premier
filtre sur la liste des variables catégorielles mais aussi comme outil de regroupement de
leurs modalités. En rubrique suivante 3.3.2, la méthode de modélisation sera présentée.
La troisième rubrique détaille la mise œuvre de cette méthode alternative sur notre
portefeuille d’étude ainsi que les réflexions menées tout au long du processus. A l’instar
de la méthode classique, on tâche de garder un regard critique sur les résultats obtenus.
ainsi que les performances mesurées tout en dévoilant l’analyse critique à la fois tech-
nique mais aussi "métier" qu’on tente de mener tout au long de ce processus. La rubrique
qui achève cette partie s’attelle à comparer les deux méthodes au travers de leurs résul-
tats, leurs performances ainsi que les atouts et limites qu’elles présentent.

3.3.1 Préliminaire: la régression pénalisée LASSO


Nous présentons ici une procédure efficiente de sélection de variables appelée LASSO
(T IBSHIRANI [1996]) qui est la plus célèbre des méthodes dites de pénalisation ou régu-
larisation. Les méthodes de régularisation consistent à ajouter une pénalité relative à la
complexité du modèle afin de favoriser la parcimonie. Elles ont pour but d’améliorer la
robustesse du modèle vis-à-vis de données indépendantes de la base d’apprentissage.
La pénalisation est matérialisée par l’ajout d’une norme sur les paramètres à estimer à
la fonction objectif à minimiser (fonction de coût ou loss function). L’utilisation de la
norme L2 correspond à la régression ridge (régularisation de Tikhonov), tandis que celle
de la norme L1 au LASSO. Ce terme supplémentaire va donc contraindre le programme
d’optimisation à favoriser le choix de coefficients plus faibles, limitant aussi la volatilité
des coefficients les plus élevés et contribuant à la robustesse du modèle. En fait, il s’agit
d’augmenter volontairement le biais du modèle pour en réduire la variance.
Le cadre général des méthodes de pénalisation requiert de présenter celle de l’elastic
net, qui combine les deux méthodes précédentes, proposée par Z OU et H ASTIE [2005].
L’estimateur associé dans le cas d’une régression aux moindres carrés est alors défini par
la minimisation de la fonction de coût R suivante:
· µ ¶¸
t 2 1 2
β̂ = argmin kY − X βkL2 + λ (1 − α) kβkL2 + αkβkL1 (3.9)
β 2

où α, compris entre 0 et 1, permet de définir l’équilibre entre ridge et lasso et λ est


le coefficient de pénalisation. Pour α = 1 la fonction de coût correspond à celle du lasso,
pour α = 0, à celle de la régression ridge et enfin pour λ = 0 à celle de la régression linéaire
classique. Le coefficient de pénalisation est donc très important puisqu’il définit le poids
attribué à la pénalité. Plus il est élevé, plus la pénalisation est forte et plus les coefficients
estimés sont proches de zéro. On doit donc accorder une importance particulière au cali-
brage de ce méta-paramètre: il est généralement effectué à l’aide d’une technique de val-
idation croisée, dont l’application au Lasso est décrite plus loin (cf page 3.3.2). De même,
on pourrait calibrer l’équilibre α entre les deux types de pénalité par une procédure sim-
ilaire, mais cette pénalisation complexe s’avère généralement excessive, et il suffit de se
restreindre à l’une des deux méthodes élémentaires la composant.
En grande dimension, les deux pénalisations ont des impacts relativement opposés
lorsque de nombreux régresseurs sont fortement corrélés entre eux. La régression ridge

44
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

est connue pour réduire simultanément la valeur des coefficients de variables corrélées
tandis que le lasso a plutôt tendance à retenir arbitrairement l’un d’entre eux et écarter
les autres. Dans notre étude, on est confronté à un grand nombre de variables et parmi
ces méthodes de pénalisation, seul le lasso permet d’exclure véritablement une partie des
facteurs de risque utilisés.
Pour estimer les paramètres, on doit résoudre le programme de minimisation décrit
par l’équation (3.9) mais celui-ci n’admet pas de solution analytique par formule fermée
comme en régression linéaire standard, du fait de la présence de la norme L1 non in-
versible. La résolution numérique est donc effectuée par un algorithme de descente de
gradient. Ainsi, le programme d’optimisation se décline selon chaque direction β j , par
l’équation impliquant la dérivée partielle de la fonction de coût R:

n
¯
∂ R ¯¯ 1X
= − x i j (y i − x it β̃) + λ(1 − α)β j + λα = 0 (3.10)
∂ β j ¯β=β̃ n i =1

où β̃ est l’estimateur de l’itération précédente, fixé dans la dérivation précédente pour


toutes les coordonnées k 6= j .
Pour la régression GLM, le terme de pénalité est ajouté à la log-vraisemblance du mod-
èle. Par exemple, pour le modèle fréquence, le programme de maximisation de l’équation (3.7)
devient:
" ¶#
n µ
1
(y i l n(λi ) − l n(y i !) − λi ) − λ (1 − α) kβk2L2 + αkβkL1
X
maxp (3.11)
β∈R i =1 2

La méthode de résolution numérique correspond alors à une variante de l’algorithme


de Newton-Raphson, qui est l’équivalent de la descente de gradient pour les vraisem-
blances. Le lecteur intéressé par la description détaillée de cette procédure pourra se
référer à l’article de F RIEDMAN et collab. [2010]. On ne peut pas comparée la vraisem-
blance pénalisée et la vraisemblance traditionnellement maximisée dans le cadre des
GLM. En particulier, les coefficients sont biaisés puisqu’on a volontairement introduit
une source de biais dans la fonction de perte. L’hypothèse de distribution asymptotique-
ment gaussienne des estimateurs étant ici violée, les résidus standards et les intervalles
de confiance usuellement calculés n’ont plus aucun sens. La comparaison de modèles
classiques et modèles pénalisés doit donc être effectuée avec la plus grande précaution.

3.3.2 Description de la méthode


Dans la méthode innovante se succèdent les grandes étapes suivantes:

• Pré-sélection et simplification de variables catégorielles par LASSO

• Sélection de variables grâce au gradient boosting

• Transformation de la sortie du gradient boosting en structure linéaire

• Validation du modèle final

Au-delà des traitements appliqués sur les données (et décrits dans la partie 2.2) en
amont des deux approches présentées, deux étapes additionnelles sont mises en œuvre
par cette méthode:

45
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

• la transformation d’un maximum de variables ordinales en type numérique (en im-


putant par exemple les valeurs manquantes par −1, quand les modalités sont toutes
positives) afin de gagner en temps de calcul et de tenir compte de ces lignes dont
l’absence d’information peut contenir du signal.

• toutes les variables numériques sont arrondies de façon à ce que le nombre de


valeurs uniques (ou niveaux, modalités) n’excède pas mille et ainsi discrétisées afin
de capter les effets non linéaires par morceaux.

Pré-sélection des variables avec une régression pénalisée LASSO

Cette procédure de régularisation est utilisée pour pré-sélectionner les variables caté-
gorielles mais elle permet aussi de regrouper les modalités similaires et de réduire la
dimension des régresseurs non numériques. Néanmoins, il est nécessaire de conserver
aussi les variables numériques dans la régression pour capturer toutes les corrélations
entre les facteurs de risque de type catégoriel et ceux de type numérique. A la fin de cette
étape de pré-sélection, on ne supprime que les variables catégorielles, c’est-à-dire celles
pour lesquelles le LASSO a annulé les coefficients β.
Comme on l’a vu dans la sous-partie 3.3.1, le choix du méta-paramètre λ, qui représente
le poids de la pénalisation, est crucial: on propose de détailler comment est opéré cet ar-
bitrage ainsi que le paramétrage de la procédure. La valeur optimale de λ est générale-
ment déterminée par validation croisée (cf sous-section 3.1.2). La méthode alternative
n’échappe pas à la règle et examine une sélection de deux cents valeurs candidates de λ,
comparées par la méthode de validation croisée de type 10-fold, à l’aide de la déviance
comme mesure d’erreur. Le choix de ces deux cents valeurs candidates est déterminé
par l’algorithme de F RIEDMAN et collab. [2010], qui est computationnellement efficient.
La valeur initiale λmax est la plus petite valeur pour laquelle tous les coefficients estimés
sont nuls, puis l’algorithme détermine ensuite une valeur finale λmi n = ² · λmax (typique-
ment ² = 10−3 ), puis construit une suite de valeurs décroissantes entres ces deux bornes
sur l’échelle logarithmique: λmax > λ2 > ... > λ198 > λ199 > λmi n . Pour chacune de ces 200
valeurs, l’erreur de validation croisée CV(λ) est calculée par la moyenne des déviances
devi sur les dix partitions du 10-fold et, est donc incertaine.

1 X10
CV(λ) = devi (λ)
10 i =1
La première approche standard est de retenir la valeur du méta-paramètre qui min-
imise l’erreur, noté λmi n
Dev , c’est le choix fait par les concepteurs de la méthode alternative
étudiée dans cette partie.

λmi n
Dev = argmin CV(λ)
λ
Néanmoins, c’est un choix “conservateur”: le modèle obtenu apparaît parfois trop
complexe et a tendance à sur-apprendre. La seconde approche consiste à sélectionner
le λ le plus élevé pour lequel l’erreur est majorée par l’écart-type de λmi n
Dev , que l’on note
alors λDev
1se
.
Comme on connaît l’erreur de validation croisée (ici la déviance devi ) pour chacune
des 10 partitions i , on peut calculer son écart-type σ basé sur ces 10 estimations et ce,
pour chaque λ candidat. Mathématiquement, on définit alors λ1se Dev comme suit:

λ1se
Dev = max λ
CV(λ)6CV(λmi
Dev
n
)+σ(λmi
Dev
n
))

46
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Il correspond alors au modèle le plus simple (puisque pénalisé davantage), mais qui
ne peut être distingué du meilleur modèle en termes d’erreur, étant donné l’incertitude
de l’estimation de cette erreur. Il s’agit donc d’une approche qui privilégie la parcimonie.
Plus loin, on compare ces deux approches relatives au choix du méta-paramètre dans
la mise en œuvre de la méthode sur notre exemple d’application (cf partie 3.3.3), ainsi que
les sélections de variables qui en résultent.

Sélection des variables par gradient boosting

En entrée du GBM, on dispose des facteurs de risque de type catégoriel pré-sélectionnés


par l’étape précédente de lasso ainsi que de la totalité des variables numériques.
De cette étape résultent deux éléments principaux. Le premier est l’ensemble consti-
tué de l’objet de type GBM ainsi que des influences relatives (standard et issues de la val-
idation croisée) calculées pour chaque variable. Le second est la liste finale des variables
sélectionnées et l’influence relative issue de la validation croisée calculée pour chacune
d’entre elles.
La régression par GBM est paramétrée comme suit:

• des arbres de profondeur 1 (dits stumps)

• une distribution de Poisson

• un nombre d’arbres minimum égal à 500 et un maximum à 2000

• un nombre de partitions égal à 5 pour la validation croisée

• la valeur initiale du paramètre de rétrécissement (shrinkage) à 0, 25

• 50% des variables choisies aléatoirement à chaque split (bag.fraction égal à 0, 5)

• pas de taille minimale des feuilles

L’ensemble d’arbres est optimisé (comme décrit en section 3.2.2) de façon à ce que le
nombre d arbres optimal soit entre 500 et 2000: s’il est inférieur à 500, on divise par deux
le paramètre de rétrécissement pour apprendre moins vite ; s’il est supérieur à 2000, on
double ce méta-paramètre pour apprendre plus vite et réduire le nombre d’arbres néces-
saires pour atteindre l’optimalité.
Le nombre d’itérations (ou d’arbres “boostés”) optimal est celui qui minimise la moyenne
des erreurs de généralisation sur les cinq partitions.
L’influence relative issue de la validation croisée de chaque régresseur est calculée
comme la moyenne des influences relatives obtenues sur chacune des cinq partitions.
On trie par importance décroissante les facteurs de risque et on les ajoute successive-
ment à la liste finale de variables jusqu’à obtenir une importance cumulée (ou informa-
tion) égale à 99, 9%.

Transformation de la sortie du GBM en structure linéaire

La première étape est l’apprentissage d’un nouveau GBM à partir uniquement de la liste
de régresseurs sélectionnés tel que le nombre de stumps optimal soit compris entre 2000
et 6000 (en ajustant le méta-paramètre de rétrécissement ou shrinkage comme dans la
méthode classique). La seconde consiste, pour chacun de ces régresseurs, à parcourir
les arbres où ils interviennent et à successivement ajouter la prédiction de ces arbres sur

47
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

l’ensemble des modalités du régresseur concerné (et ce, jusqu’à l’arbre optimal). Donc,
concrètement, le coefficient associé à la modalité A de la variable v ar est égal à la somme
des prédictions des arbres où la variable de scission est v ar pour la modalité A. Au final,
on a bien un coefficient pour chaque modalité de chaque régresseur.
L’intercept est égale à la valeur prédite initiale sur laquelle les arbres font des ajuste-
ments et la formule de calcul pour prédire est

prédiction = exp(βv ar 1 + βv ar 2 + intercept) (3.12)

On applique l’offset en multipliant cette prédiction par la durée d’exposition (ou nom-
bre d’années-police).
La différence entre la formule du GLM et celle du GBM linéarisé est subtile. Elle ré-
side dans le fait que pour une variable numérique v ar , on multiplie le βv ar unique par
la valeur de v ar dans la première, tandis que v ar est discrétisée dans la seconde: il n’y
a donc pas de produit, on utilise simplement le coefficient βmod al i t é correspondant à la
modalité de v ar .

Recherche d’interactions par GBM

L’approche utilisée consiste à utiliser le modèle construit à l’étape précédente en offset


et à entraîner un nouveau modèle qui cherche à prédire les quasi-résidus avec des vari-
ables croisées. Précisons que le caractère confidentiel de la technique utilisée par Axa
Global P&C nous interdit de détailler cette étape mais nous dévoilons plus loin les résul-
tats obtenus dans le cas d’application.

3.3.3 Mise en œuvre et résultats


Pré-sélection des variables avec une régression pénalisée LASSO

Cette étape a pour issue une pré-sélection de 43 variables catégorielles sur 44 ce qui nous
semble peu satisfaisant au vu du temps de calcul nécessaire (près d’une heure). On in-
tuite que le poids accordé à la pénalisation est trop faible car les concepteurs de cette
méthode alternative (et du package R interne d’AGPC utilisé) ont opté pour le λmi n
Dev (cf
sous-parties 3.3.1 et 3.3.2).
Comme on l’a vu précédemment, une pratique commune est de choisir λ1se Dev , qui
définit le modèle le plus simple dont la précision est comparable à celle du meilleur mod-
èle (celui relatif au λmi n
Dev , cf équation (3.3.2)).
En fait, il s’avère que sur de nombreux jeux de données utilisés par AGPC, choisir le
λDev éliminerait trop de variables (que l’étape suivante de GBM aurait conservées le cas
1se

échéant), ce qui impacterait négativement la performance globale de la méthode. Cela


proviendrait du fait que, sur ces données, le λmi n
Dev est tout simplement le plus petit lambda
testé (la borne inférieure λmi n de l’intervalle de λi utilisé par l’algorithme), alors que le λ
optimal lui serait effectivement inférieur. On a alors λmi n
Dev qui n’est pas optimal certes,
mais λDev
1se
l’est encore moins.
Dans le cas de notre base de données,

λmi n −5 1se
Dev = 2, 665396.10 , λDev = 6, 302301.10
−4
et λmi n = 7, 246114.10−6 ;

on a donc λmi n < λmi n


Dev < λDev : l’argument d’AGPC présenté ci-dessus ne tient pas
1se

dans notre cas. La trajectoire des solutions est représentée en figure 3.20 avec une ab-
scisse qui reflète les λi passés à l’échelle logarithmique et la déviance en ordonnée. La

48
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

borne inférieure des lambdas testés est l’abscisse du point rouge le plus à gauche:

log(λmi n ) = log(7, 246114.10−6 ) = −11, 83505.

La première droite verticale en pointillés correspond à

log(λmi n −5
Dev ) = log(2, 665396.10 ) = −10, 53257.

La seconde droite verticale en pointillés représente:

log(λ1se −4
Dev ) = log(6, 302301.10 ) = −7, 369426.

Figure 3.20 – Trajectoire des solutions du LASSO

Un autre argument est qu’ici la régression LASSO n’est pas utilisée à des fins de pré-
diction mais de sélection de variables, il serait donc dommage d’opter pour une solu-
tion plus pénalisée et de perdre des variables pertinentes du point de vue du GBM. De
plus, bien qu’elle n’ait exclu qu’une seule variable catégorielle, la procédure n’est pas
forcément dénuée d’intérêt puisqu’elle a permis de faire des simplifications pour qua-
tre variables qui avaient de nombreuses modalités (en les regroupant) ce qui permettra
d’améliorer aussi la vitesse d’apprentissage du GBM (qui passe par de l’encodage one-hot
ou représentation binaire, où un nombre de modalités se décline en presque autant de
colonnes).
A titre informatif, choisir le λ1se
Dev pour notre modèle conduit à une pré-sélection de
18 variables catégorielles sur 44, ce qui permet d’avoir un traitement GBM plus rapide
par la suite qu’avec les 43 variables retenues par la méthode alternative originale. In fine,
on observe alors que cela impacte peu la sélection finale de variables catégorielles par

49
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Figure 3.21 – Sélection des variables catégorielles en fonction du lambda retenu dans la régression
LASSO

50
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

le gradient boosting puisqu’une seule variable a été substituée par une autre, qui est a
priori non corrélée (en jaune dans la figure 3.21).
Le regroupement de variables effectué par la procédure LASSO est identique avec les
deux choix de lambdas mentionnés et concerne quatre variables (figure 3.22). Elle a per-
mis de réduire la dimension de ces variables à quinze modalités maximum.
Pour le reste du mémoire, on restera fidèle à la méthode alternative originale, à savoir
une pré-sélection de 43 variables catégorielles issue du modèle LASSO caractérisé par
λmi n
Dev .

Simplifications du modèle

Figure 3.22 – Réduction de la dimension de certaines variables catégorielles par la régression


LASSO

La procédure LASSO, paramétrée pour obtenir un nombre maximal de 15 modalités,


a effectué des regroupements pour les quatre variables listées en figure 3.22. Ceux-ci sont
opérés par l’égalisation de leurs coefficients β.
La première variable (fig. 3.23), qui est une variable externe issue de la base SIRENE,
désigne l’origine déclarée de l’établissement (création, reprise etc.): elle voit ainsi deux
de ses modalités "vide" et zéro fusionnées (données "sans objet" et manquantes). La sec-
onde variable, qui renvoie à l’indicateur des ouvertures du local professionnel (hormis la
porte), voit ses modalités regroupées de façon incohérentes ou difficilement interpréta-
bles au regard de l’expérience de l’équipe technique produits responsable de sa concep-
tion. En effet, le premier chiffre représente le niveau de protection croissant (1 le moins
sécurisé à 7 le mieux protégé). On fait exactement le même constat pour la troisième
variable qui désigne l’indicateur de porte (ou d’ouverture principale). En revanche, la
simplification opérée par la procédure sur la variable de zonage semble être pertinente:
chacune des zones regroupées l’a été de proche en proche avec une (ou des) zone(s) voi-
sine(s), fidèlement à ce que l’on pouvait anticiper puisque le zonier, par construction,
représente un risque croissant de la zone n°1 à la zone n°20. Elle aboutit à 14 zones de
risque au lieu de 21 (20 + la modalité "manquante"). Notons toutefois que la numérota-
tion des zones groupées ne respecte pas l’ordre initial qui est celui des risques croissants,
ce qui rend moins immédiat l’exploitation d’outils d’analyse graphique pour cette vari-
able.

Sélection des variables avec GBM

Ici, en entrée du GBM on a donc 43 variables catégorielles, pré-sélectionnées par l’étape


précédente et la totalité des 102 variables numériques. 2000 itérations ont été réalisées
à cette étape dont la meilleure était la 1169ème. Parmi les 145 prédicteurs, 85 ont une
influence non nulle (listés en figure 3.24), desquels 46 seront sélectionnés pour le modèle
final : 19 de type catégoriel et 27 de type numérique. L’influence est fortement concentrée
sur une dizaine de variables: elles représentent près de 90% du pouvoir prédictif.

51
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Figure 3.23 – Regroupements de modalités des variables catégorielles effectués par LASSO

52
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Figure 3.24 – Influence relative issue de la validation croisée suite au GBM de sélection. Liste
tronquée à 50 prédicteurs: les 46 premiers étant ceux du modèle.)

53
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Du Gradient Boosting au modèle linéaire, coefficients et interprétation

Comme décrit précédemment, un nouveau GBM est entraîné sur cette sélection de quarante-
six facteurs de risque, puis la transformation du GBM en GLM est opérée: on obtient alors
un jeu de coefficients pour chacun des régresseurs. On les analyse et interprète avec un
regard “métier” plus loin (cf page 55), parmi d’autres outils de validation.
Sur nos données, bien que ce ne soit pas son but, on découvre que le procédé de
linéarisation a permis un gain de performance: de près d’un demi-point d’indice de Gini
sur l’échantillon d’apprentissage et de plus d’un point sur l’échantillon de test (figure
3.25.

(a) Performance du GBM avant sa linéarisation (b) Performance du GBM après sa linéarisation

Figure 3.25 – Performance du GBM final avant / après sa linéarisation sur les échantillons
d’apprentissage et de test

Interactions

L’ajout des interactions suggérées apporte un très faible gain d’information (elles feraient
diminuer l’erreur de validation croisée de l’ordre de 10−5 , figure 3.26). On ne trouve
d’ailleurs pas d’interprétation intuitive à ces variables croisées.

Figure 3.26 – Suggestion d’interactions et réduction d’erreur estimée suite à leur ajout.)

Bien qu’a priori peu prometteurs, on teste l’ajout de ces interactions une par une: la
procédure échoue. Il n’y aura donc pas de variable croisée dans le modèle final issue de
la méthode alternative.

Modèle final et validation

Le modèle final fait donc intervenir quarante-six variables: dix-neuf catégorielles et vingt-
sept numériques. In fine, aucune interaction ne figure dans le modèle.

54
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Figure 3.27 – Modèle GLM final issu de l’approche alternative: indicateurs principaux

Coefficients et interprétation On se propose d’analyser les coefficients obtenus pour


les variables numériques les plus importantes en gardant à l’esprit les contraintes métier
et opérationnelles. Il faut aussi noter que cette interprétation des tendances de la fréquence
à travers les coefficients n’a de sens que toutes choses égales par ailleurs. Plus le nom-
bre d’antécédents de sinistres (observé sur 36 mois chez AXA, comme ceux déclarés à la
souscription) est important, plus la fréquence est élevée (figure 3.28a). La fréquence DDE
a une tendance croissante avec la surface (figure 3.28b), mais l’allure de la courbe des co-
efficients oscille fortement pour les grandes surfaces. De même, les allures des courbes
de coefficients des capitaux assurés en incendie (fig. 3.28c) et DDE (fig. 3.28d) ne sont
ni régulières, ni interprétables. On observe une nette sur-sinistralité quand la longueur
des vitrines est strictement positive, avec un caractère oscillatoire pour les plus grandes
(figure 3.28e). Une interprétation possible de ce phénomène est que la présence de vit-
rines constitue un risque accru d’infiltrations lié à d’éventuels problèmes d’étanchéité.
On pourrait ainsi envisager de créer une variable binaire indiquant seulement la présence
de vitrine. On veillerait néanmoins à ne pas oublier qu’on n’aurait alors qu’une informa-
tion partielle car certains risques ont une vitrine mais n’ont pas souscrit la garantie bris
des glaces et n’ont donc pas eu à renseigner leur longueur. Enfin, on observe que les co-
efficients de certains facteurs de risque sont difficilement interprétables ou justifiables.
Ainsi, d’après les figures 3.28f et 3.28g, plus un assuré reçoit de mises en demeure (plus il
est mauvais payeur), moins il aurait de sinistres! On découvre aussi un phénomène sur-
prenant et contredisant le lien fort établi entre fréquence DDE et nombre d’antécédents
de sinistres observé sur 36 mois chez AXA, puisqu’il s’agit de la variable la plus impor-
tante (cf fig. 3.24) : l’assuré ayant eu un sinistre lors des vingt-quatre derniers mois aurait,
toutes choses égales par ailleurs, une probabilité plus forte d’en avoir de nouveau que
ceux qui en ont eu deux sur la même période!

Prédictions moyennes par variable Le modèle semble sous-estimer la fréquence sur


l’ensemble des zones géographiques et semble avoir une pertinence limitée sur certaines
zones regroupées automatiquement par Lasso (fig. 3.29a). Pour les antécédents de sin-
istres DDE AXA sur 36 mois, l’ajustement moyen est du modèle est correct, mais les modal-
ités supérieures à 2 ne devraient pas être distinctes au vu des très faibles expositions con-
cernées et mériteraient donc d’être groupées avec la modalité 2 sinistres (fig. 3.29b). La
tendance de la fréquence moyenne prédite selon l’activité professionnelle est cohérente
avec la fréquence moyenne observée, au bémol près, qu’on a du mal à comprendre l’intérêt
de ne pas regrouper les modalités vide et MISSING (fig. 3.29c).
On observe à nouveau la difficulté à exploiter cet outil graphique de validation pour
les variables continues comme la surface (fig. 3.29d) ou le capital assuré (fig. 3.29e).

Courbe de lift Les courbes des fréquences observées et prédites par quantile (figure 3.30)
sont proches pour les deux tiers des segments; on remarque souvent pour le tiers restant

55
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

(a) Nombre de sinistres (b) Surface du local (c) Capital assuré en in- (d) Capital assuré en
DDE AXA sur 36M cendie dégâts des eaux

(e) Longueur de la vit- (f) Nombre de mises en (g) Nombre de mises en (h) Nombre de sinistres
rine demeure sur 24M demeure sur 12M DDE AXA sur 24M

Figure 3.28 – Quelques paramètres β estimés par linéarisation du GBM

(a) Zonier fréquence DDE (b) Nombre de sinistres DDE (c) Classe de risque de l’activité
AXA sur 36M professionnelle

(d) Surface du local (e) Capital assuré en incendie (f) Sinistres DDE déclarés à la
souscription

Figure 3.29 – Fréquences moyennes prédites et observées pour chaque variable du modèle final
issu de la méthode alternative

56
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

(a) Courbe de lift sur l’échantillon (b) Courbe de lift sur l’échantillon de test
d’apprentissage

Figure 3.30 – Courbes de lift du modèle final issu de la méthode alternative

une tendance à sur-estimer la fréquence réelle tant sur l’échantillon d’apprentissage que
de test: les segments n° 1, 7, 13 à 16. Le modèle sous-estime la fréquence des 5% les
plus risqués (quantile n°20). Malgré ces réserves énumérées, on ne constate pas d’écart
systématique entre les courbes.

3.3.4 Comparaison des méthodes


Modèles

On compte 6 facteurs de risque et 27 paramètres (hors constante) dans le modèle issu de


la méthode classique contre 46 régresseurs et 843 paramètres dans le modèle provenant
de l’approche innovante (figure 3.31). Les 6 facteurs de risque du modèle classique sont
inclus dans le modèle concurrent et ont pour moitié un écart de coefficients (spreads)
supérieur à celui de leur homologue dans le modèle alternatif.
On peut obtenir un modèle bien plus parcimonieux avec la méthode alternative en
diminuant la part d’importance cumulée (information) requise pour la sélection de vari-
ables, initialement fixée par leurs auteurs à 99, 9%. Par exemple, en fixant un seuil à 89%
de l’information, il suffit de conserver les 10 variables les plus importantes, et on a alors
un modèle moins paramétré (fig. 3.32). Il compte 383 coefficients (versus 843 précédem-
ment) et inclut l’ensemble des six variables retenues dans le modèle issu de l’approche
classique ; deux des quatre variables candidates supplémentaires n’avaient pas été con-
servées sciemment dans le modèle classique. On observe aussi que ce modèle altéré ac-
corde à la surface du local une segmentation et une précision nettement plus importantes
que dans le modèle classique : spread de 742% vs 207% et 110 tranches de surface versus
6.

Performances

Globalement, le modèle issu de la méthode alternative offre une performance supérieure


à l’approche classique (cf figure 3.33), au regard de l’indice de Gini (près de 5 points sup-
plémentaires) : il permet donc une meilleure segmentation. Au regard de la RMSE, la
méthode innovante induit une erreur légèrement plus basse sur les échantillons d’apprentissage
et de test mais pas sur l’année complète suivante où la procédure classique l’emporte.

57
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Figure 3.31 – Comparaison des variables des modèles issue des deux méthodes: ainsi que de leur
granularité et de leur spread

58
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Figure 3.32 – Comparaison des variables du modèle "classique" et du modèle "alternatif" limité à
dix régresseurs, dit "parcimonieux"

Figure 3.33 – Comparaison des indicateurs principaux de performances des modèles issue des
deux méthodes

59
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

Cette supériorité de la méthode alternative au niveau des performances est discutable


dans la mesure où l’on observe aussi que, malgré une fréquence DDE 2015 plus basse que
les années utilisées pour l’apprentissage et le test (2012 à 2014), le modèle issu de la méth-
ode alternative génère une fréquence moyenne prédite très au-dessus de celles des deux
échantillons alors que le modèle classique a une moyenne prédite inférieure.
Avec la variante plus parcimonieuse de l’approche innovante, on a pu réduire de plus
de moitié le nombre de paramètres, et presque divisé par cinq le nombre de régresseurs ;
la performance reste plus qu’honorable en matière de tri et de segmentation puisque cela
ne coûte qu’environ deux points aux indices de Gini calculés, toujours bien au-dessus de
ceux du modèle traditionnel. Le modèle perd légèrement en précision sur les données
d’étude (RMSE un peu plus élevée sur les deux échantillons) mais en gagne sur l’année
suivante.

Avantages/inconvénients

En termes de temps nécessaire à l’application de chaque méthode, une fois les don-
nées exploitables et l’ensemble des outils programmés et maîtrisés, quelques heures à
une journée suffisent à l’actuaire tarificateur aguerri pour obtenir le modèle final avec
l’approche innovante automatisée, ce qui représente un atout certain au vu du temps
libéré pour l’analyse, tandis que cinq à sept jours sont requis pour une modélisation clas-
sique avec une taille de base de données similaire à celle de notre exemple d’application.

Une utilisation opérationnelle à forte valeur ajoutée de la méthode innovante iden-


tifiée pour l’équipe est le prototypage. A date, l’outil a été de nouveau utilisé pour bâtir
très rapidement des premiers modèles (fréquence et sévérité) spécifiques à une formule
commerciale.
Une seconde utilité opérationnelle de cet outil est qu’il permet de challenger rapide-
ment les modèles existants lors des processus de mises à jour de modèles.
Les axes d’amélioration identifiés pour cette méthode innovante sont le lissage au-
tomatique des coefficients des variables numériques (détection de tendance), l’amélioration
de la détection d’interactions, l’implémentation des moteurs XGBoost (plus performant)
et LightGBM (développée par Microsoft et réputée beaucoup plus rapide) en plus du mo-
teur GBM présent.

60
Conclusion et perspectives

On peut tout à fait bénéficier des atouts offerts par les procédures d’apprentissage statis-
tique en se contraignant à aboutir in fine à un modèle linéaire généralisé (donc inter-
prétable) qui soit robuste.

L’approche classique qui utilise le gradient boosting permet un gain de temps im-
portant sur l’étape de sélection de variables, mais les nombreuses itérations manuelles
nécessaires par la suite (par exemple les opérations de simplification/lissage des vari-
ables) sont chronophages même si elles permettent, dans le cadre de notre portefeuille
d’étude, de bâtir un modèle performant, très parcimonieux et où l’interprétabilité est as-
surée par un regard métier tout au long du processus.

Néanmoins, le besoin de faire appel à des outils automatiques se fait de plus en plus
sentir dans les équipes d’actuariat produit au vu du nombre grandissant de modèles util-
isés et de la fréquence à laquelle ils doivent être mis à jour. L’approche innovante répond
à ce besoin en permettant un gain de temps considérable grâce une procédure quasi-
automatisée. L’actuaire doit néanmoins porter un regard critique sur le modèle obtenu et
contraindre le nombre de variables qu’il contient, car sa parcimonie et son interprétabil-
ité sont décevantes sans intervention de l’utilisateur.

Pour résumer, l’utilisation des outils de l’apprentissage statistique apporte des béné-
fices certains en termes de performance et de vélocité, l’expertise métier et l’opinion de
l’actuaire restent néanmoins cruciales pour répondre aux critères de transparence, de ro-
bustesse et d’applicabilité opérationnelle.
L’étude qui a été réalisée donne un exemple de mise en oeuvre sur un produit d’assurance
de masse et peut servir de point de départ de réflexions pour les autres produits d’assurance
de biens et de responsabilités d’Axa (automobile, habitation, agricole, immeuble...). On
identifie deux axes forts d’évolution technique pour la méthode innovante : l’amélioration
de la recherche d’interactions et l’ajout d’une fonctionnalité de lissage automatique des
variables numériques qui viendraient optimiser encore le modèle et renforcer son pou-
voir généralisant.

61
CHAPITRE 3. MODÉLISATION: DEUX APPROCHES, COMPARAISON DES
PERFORMANCES

62
Annexe A

Annexes

(a) Zonier fréquence DDE (b) Classe de risque de l’activité pro-


fessionnelle

(c) Surface du local (d) Nombre de sinistres DDE AXA


sur 36M

(e) Capital assuré en incendie (f) Sinistres DDE déclarés à la


souscription

Figure A.1 – Coefficients avec intervalle de confiance pour chaque variable du modèle GLM final
obtenu avec la méthode classique

I
ANNEXE A. ANNEXES

II
Annexe B

Liste des acronymes

CART classification and regression tree. 6, 7, 27

DDE dégâts des eaux. 4, 9, 11, 38, 40, 55

ELR expected loss ratio. 9

GAM modèle additif généralisé ou generalized additive model. 7

GBM gradient boosting machine. 6, 14, 19–21, 27, 28, 31, 32, 34, 35, 47–49, 51, 53, 54, 56,
60, V, VI

GLM generalized linear model ou modèle linéaire généralisé. 6, 7, 9, 20, 23, 24, 26, 28, 30,
32–34, 36, 38–43, 48, 55, I, V, VI

i.i.d. indépendants et identiquement distribués. 5, 6, 21

LASSO Least Absolute Shrinkage and Selection Operator. 7, 44

ML machine learning ou apprentissage automatique/statistique. 6, 7, 9

MRE multirisque entreprise. 3

MRP multirisque professionnelle. 3, 8, 9

PME petites et moyennes entreprises. 3

RF random forest ou forêt aléatoire. 6, 7

RMSE root mean squared error ou racine carrée de la somme des erreurs élevées au carré.
25, 26, 57

TNS travailleurs non salariés. 3

TPE très petites entreprises. 3

III
Liste des acronymes

IV
Annexe C

Bibliographie

B ELLINA , R. 2014, Méthodes d’apprentissage appliquées à la tarification non-vie, mémoire


d’actuariat, ISFA. 6, 21, VII

C HARPENTIER , A. 2013, «Exposure with binomial reponses», URL http://http://


freakonometrics.hypotheses.org/3318. 7

F RIEDMAN , J., T. H ASTIE et R. T IBSHIRANI. 2010, «Regularization paths for generalized


linear models via coordinate descent», Journal of statistical software, vol. 33, no 1, p. 1.
45, 46

F RIEDMAN , J. H. 2001, «Greedy function approximation: a gradient boosting machine»,


Annals of statistics, p. 1189–1232. 27, 28

G UILLOT, A. 2015, Apprentissage statistique en tarification non-vie : quel avantage opéra-


tionnel?, mémoire d’actuariat, ENSAE. 7, 24, VII

L ORENZ , M. O. 1905, «Methods of measuring the concentration of wealth», Publications


of the American statistical association, vol. 9, no 70, p. 209–219. 25

L UTZ , M. et E. B IERNAT. 2015, Data Science : fondamentaux et études de cas: Machine


Learning avec Python et R, Blanche, Eyrolles, ISBN 9782212322507. 19, 26

M C C ULLAGH , P. et J. A. N ELDER. 1989, «Generalized linear models, no. 37 in monograph


on statistics and applied probability», . 28

PAGLIA , A. 2010, Tarification des risques en assurance non-vie, une approche par modèle
d’apprentissage statistique, mémoire d’actuariat, EURIA. 6, 7, 8

PARIENTE , J. 2016, Modélisation du risque géographique en assurance habitation, mé-


moire d’actuariat, Université Paris Dauphine. 25, 27, VII

T IBSHIRANI , R. 1996, «Regression shrinkage and selection via the lasso», Journal of the
Royal Statistical Society. Series B (Methodological), p. 267–288. 44

T RABELSI , A. et R. R ESPRIGET. «Régression de poisson», https://perso.univ-


rennes1.fr/valerie.monbet/ExposesM2/2013/RegressionPoissonAR.pdf. 29

Z OU , H. et T. H ASTIE. 2005, «Regularization and variable selection via the elastic net»,
Journal of the Royal Statistical Society: Series B (Statistical Methodology), vol. 67, no 2,
p. 301–320. 44

V
ANNEXE C. BIBLIOGRAPHIE

VI
Liste des figures

1.1 La sinistralité MRP par garantie: répartition en nombre et en charge . . . . 4

2.1 Sources de données et types de variables . . . . . . . . . . . . . . . . . . . . . 12


2.2 Fréquence DDE observée par année d’étude . . . . . . . . . . . . . . . . . . . 15
2.3 Statistiques descriptives bivariées . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.1 Récapitulatif des deux méthodes présentées . . . . . . . . . . . . . . . . . . . 20


3.2 Illustration du sur-apprentissage. source : Mémoire IA de B ELLINA [2014] . 21
3.3 Notions de base d’apprentissage, de validation et de test . . . . . . . . . . . . 23
3.4 Validation croisée par 5-fold. source : Mémoire IA de G UILLOT [2015] . . . . 24
3.5 Calcul de l’indice de Gini comme étant deux fois l’aire A entre la courbe de
gain et la bissectrice. source : Mémoire IA de PARIENTE [2016] . . . . . . . . 25
3.6 Structure d’un arbre de décision . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.7 Variables les plus influentes, en sortie de GBM sans et avec 2-fold . . . . . . 34
3.8 Résultats du modèle GBM final avec 10 variables et 1000 arbres . . . . . . . 35
3.9 Matrice de "corrélations" des variables issues du GBM . . . . . . . . . . . . . 35
3.10 Exemple de simplification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.11 Exemple de simplification d’une variable catégorielle: la classe de risque DDE. 37
3.12 Modèle GLM final: indicateurs principaux . . . . . . . . . . . . . . . . . . . . 38
3.13 Modèle GLM final, granularité et apport de chaque variable . . . . . . . . . . 38
3.14 Fréquences moyennes prédites et observées pour chaque variable du mod-
èle GLM final obtenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.15 Coefficients avec intervalle de confiance pour les deux variables les plus in-
fluentes du modèle GLM final obtenu avec la méthode classique . . . . . . . 40
3.16 Courbes de lift du modèle GLM final obtenu . . . . . . . . . . . . . . . . . . . 41
3.17 Fréquences moyennes relatives observées de 2012 à 2014 pour chaque vari-
able du modèle GLM final obtenu . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.18 Validation du modèle final par 10-fold: indices de Gini sur les partitions
d’entraînement et de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.19 Validation croisée des coefficients du modèle GLM final par 10-fold . . . . . 43
3.20 Trajectoire des solutions du LASSO . . . . . . . . . . . . . . . . . . . . . . . . 49
3.21 Sélection des variables catégorielles en fonction du lambda retenu dans la
régression LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.22 Réduction de la dimension de certaines variables catégorielles par la régres-
sion LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.23 Regroupements de modalités des variables catégorielles effectués par LASSO 52
3.24 Influence relative issue de la validation croisée suite au GBM de sélection.
Liste tronquée à 50 prédicteurs: les 46 premiers étant ceux du modèle.) . . . 53
3.25 Performance du GBM final avant / après sa linéarisation sur les échantillons
d’apprentissage et de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

VII
LISTE DES FIGURES

3.26 Suggestion d’interactions et réduction d’erreur estimée suite à leur ajout.) . 54


3.27 Modèle GLM final issu de l’approche alternative: indicateurs principaux . . 55
3.28 Quelques paramètres β estimés par linéarisation du GBM . . . . . . . . . . . 56
3.29 Fréquences moyennes prédites et observées pour chaque variable du mod-
èle final issu de la méthode alternative . . . . . . . . . . . . . . . . . . . . . . 56
3.30 Courbes de lift du modèle final issu de la méthode alternative . . . . . . . . 57
3.31 Comparaison des variables des modèles issue des deux méthodes: ainsi que
de leur granularité et de leur spread . . . . . . . . . . . . . . . . . . . . . . . . 58
3.32 Comparaison des variables du modèle "classique" et du modèle "alternatif"
limité à dix régresseurs, dit "parcimonieux" . . . . . . . . . . . . . . . . . . . 59
3.33 Comparaison des indicateurs principaux de performances des modèles is-
sue des deux méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

A.1 Coefficients avec intervalle de confiance pour chaque variable du modèle


GLM final obtenu avec la méthode classique . . . . . . . . . . . . . . . . . . . I

VIII

Vous aimerez peut-être aussi