La distribution multinomiale : comprendre les probabilités derrière vos modèles de langage
Quelle distribution choisir pour votre modèle ?

La distribution multinomiale : comprendre les probabilités derrière vos modèles de langage

31 Formules à connaitre en IA générative avant 2025 # 5 - Hors série


English is more your forte? Link in comments!


La distribution multinomiale est une généralisation de la distribution binomiale. Elle modélise les probabilités associées à plusieurs catégories k possibles, avec un total d’essais n.

La distribution binomiale, elle, est un modèle mathématique qui décrit le nombre de succès obtenus dans une série de tentatives indépendantes, où chaque tentative a exactement deux résultats possibles : succès ou échec.

La probabilité d’obtenir exactement k succès sur n essais est donnée par la formule :


Contenu de l’article


Contenu de l’article

  • Le coefficient binomial, ci-dessus, représente le nombre de façons de choisir k succès parmi n essais.
  • p : Probabilité de succès à chaque essai.
  • 1−p : Probabilité d’échec.
  • n : Nombre total d’essais.
  • k : Nombre de succès recherchés.

Prenons l'exemple simple du lancer d'une pièce de monnaie :

  1. On lance une pièce 10 fois.
  2. Probabilité d’obtenir pile (p) : 0,5.
  3. Probabilité d’obtenir 6 fois pile (k=6) en 10 lancers (n=10) :


Contenu de l’article

Cela signifie qu’il y a environ 20,5 % de chances d’obtenir exactement 6 "piles".

Dans un objectif de Prédiction de conversions, prenons une campagne marketing qui envoie 100 emails. La probabilité qu’un client clique sur le lien est (𝑝) : 0,2. La distribution binomiale donne la probabilité pour chaque valeur k, aidant à prédire combien de clics attendre (k).

Dans une série de transactions, chaque achat a une probabilité 𝑝 d’être rentable. La distribution binomiale permet d’évaluer le nombre probable de transactions réussies.

Dans la réponse à une enquête d'un Service client, si l'on sais la probabilité qu’un client donne une évaluation positive (p), on peut calculer sur les enquêtes envoyées, à combien de réponses positives on peut s'attendre.

Sur 50 enquêtes envoyées, combien de réponses positives peut-on attendre ?

Différence avec la multinomiale est que la binomiale ne permet que Deux résultats possibles (succès/échec) au lieu de plusieurs catégories (ex. : intention A, B, ou C dans un chatbot).

La formule de la multinomiale est donnée par :


Contenu de l’article

avec

  • n : Nombre total d’essais (par exemple, prédictions ou observations).
  • x : Nombre d’occurrences observées pour la catégorie i.
  • p : Probabilité associée à la catégorie i.

Exemple : Imaginez un chatbot qui doit prédire la prochaine intention utilisateur parmi 3 options (A, B, C) :

  • p(A)=0.5, p(B)=0.3, p(C)=0.2.
  • Sur 10 prédictions, il pourrait observer 5 A, 3 B, et 2 C.

C'est la distribution multinomiale qui donne la probabilité de ce résultat.


Contenu de l’article

Estimation des gains

La distribution multinomiale est très utile pour modéliser des scénarios avec plusieurs catégories ou options, comme des types d'actifs financiers (actions, obligations, matières premières). Par exemple dans un portefeuille d’investissement, chaque actif peut être classé dans une des catégories : actions, obligations, ou matières premières. La probabilité d'appartenir à une catégorie donnée dépend des tendances du marché.

Comment cela s’applique à l’analyse des tendances du marché ?

Lors de l’analyse des tendances, chaque catégorie d’actifs peut être vue comme une option possible. Les probabilités assignées à chaque catégorie représentent les chances qu’un actif subisse une variation de prix favorable, défavorable, ou stable. En analysant les données historiques, on peut estimer ces probabilités pour chaque catégorie d’actifs en fonction des conditions de marché actuelles.

Exemple :

  • Probabilité qu’un actif reste stable : 30 %
  • Probabilité qu’un actif augmente : 50 %
  • Probabilité qu’un actif baisse : 20 %

Si vous suivez un portefeuille avec 10 actifs, la distribution multinomiale peut prédire combien d’actifs vont probablement augmenter, baisser ou rester stables.

Pourquoi utiliser la multinomiale pour modéliser des marchés ?

Les marchés financiers sont influencés par de nombreux facteurs, ce qui crée des scénarios avec plusieurs résultats possibles simultanément :

  1. Une hausse dans les actions peut coexister avec une baisse des matières premières.
  2. Différents actifs réagissent différemment à une même tendance macroéconomique.

La multinomiale permet de modéliser ces dynamiques complexes de manière probabiliste, ce qui aide à :

  1. Identifier des portefeuilles équilibrés,
  2. Optimiser les stratégies d’investissement et
  3. Prévoir les changements potentiels dans les catégories d’actifs.

Par exemple, une banque veut prévoir la répartition des performances de ses actifs sur une période donnée. Elle utilise alors des données historiques pour estimer les probabilités que les actions augmentent de 5 %, les obligations baissent de 3 %, ou les matières premières restent stables. En appliquant la distribution multinomiale, elle peut simuler différents scénarios et mieux préparer ses décisions d’allocation.


Contenu de l’article

Impact dans le traitement du langage naturel (NLP)

Les modèles NLP comme les transformeurs ou GPT génèrent du texte en évaluant les probabilités sur des ensembles de mots (ou tokens). Ces probabilités suivent une distribution multinomiale, où :

  • Chaque mot a une probabilité p.
  • La somme des probabilités sur tout le vocabulaire est 1.

Pour un modèle IA qui classe les clients en plusieurs segments en fonction de leur comportement (achat, clics, abandon), la distribution multinomiale aide à évaluer la probabilité de chaque segment.

Lors de l’analyse des tendances du marché, elle peut modéliser les probabilités de variation des catégories d’actifs (ex. : actions, obligations, matières premières).

Dans un chatbot de service client, la distribution multinomiale est utilisée pour classer les intentions client, comme "demander un remboursement", "poser une question produit", ou "exprimer une plainte".


Contenu de l’article

Vérifier les données d’entraînement pour un fine-tuning avec une distribution multinomiale

Une mauvaise distribution des catégories dans les données d’entraînement peut entraîner des biais dans les prédictions.

Le fine-tuning d'un modèle consiste à ajuster un modèle pré-entraîné sur des données spécifiques pour mieux répondre à vos besoins. Cependant, la qualité et la structure des données d'entraînement jouent un rôle clé dans la réussite de ce processus. Voici les étapes essentielles pour vérifier vos données d'entraînement et éviter les biais ou erreurs.

Lorsque vous effectuez un fine-tuning d’un modèle d’IA qui utilise une distribution multinomiale, il est essentiel de vérifier vos données pour garantir la qualité et l'efficacité de l'entraînement.

Vérifiez la structure des données

Assurez-vous que vos données respectent le format attendu pour une tâche multinomiale. Chaque échantillon doit être associé à une classe ou une distribution de probabilités sur les classes.

Exemple :

  • Donnée brute : Une phrase ou un texte.
  • Label : Une classe (ex. : "positif", "négatif", "neutre").
  • Distribution : [0.2, 0.5, 0.3] pour trois classes.

Problèmes courants :

  • Classes manquantes ou mal étiquetées.
  • Distributions qui ne totalisent pas 1.

Analyse de la distribution des classes

La distribution des étiquettes dans les données d’entraînement est cruciale pour éviter le biais.

  • Équilibrée : Toutes les classes ont un nombre similaire d’échantillons.
  • Déséquilibrée : Une ou plusieurs classes sont sur-représentées.

Exemple : Si vos classes sont "A", "B", "C" :

  • Équilibrée : 33 %, 33 %, 34 % d'échantillons.
  • Déséquilibrée : 80 % "A", 15 % "B", 5 % "C".

Un déséquilibre peut biaiser le modèle en faveur des classes majoritaires.

Nettoyez les données

Assurez-vous que les données sont de haute qualité, corrigez les incohérences dans les annotations, supprimez les doublons pour éviter le sur-apprentissage et identifiez et nettoyez les entrées incorrectes.

Vérifiez la taille du dataset

Pour une tâche multinomiale, un dataset trop petit peut poser problème si vous avez de nombreuses classes.

Plus il y a de classes, plus vous avez besoin d’échantillons par classe pour éviter le sur-ajustement. Si les données sont insuffisantes, envisagez de la data Augmentation (syntaxe, paraphrase, bruit aléatoire) ou un Transfert Learning avec un modèle pré-entraîné.

Contenu de l’article

Surveillez les distributions dans le fine-tuning

Pendant le fine-tuning, surveillez la perte de log-likelihood et la stabilité des gradients. Si les gradients explosent ou s'annulent, cela peut signaler des erreurs dans les distributions d’entrée.

Testez les données avant l’entraînement

Effectuez un test simple pour vous assurer que votre modèle apprend correctement. Utilisez un sous-ensemble des données pour un entraînement rapide et vérifiez que le modèle atteint une perte faible sur ce sous-ensemble. Si la perte reste élevée, examinez les données d’entraînement pour détecter des erreurs.


Contenu de l’article

Conseil du jour

Un modèle bien formé sur des données de mauvaise qualité produira des résultats peu fiables. Prenez le temps d’explorer et de nettoyer vos données pour éviter des surprises coûteuses en production. Rappelez-vous que toute prédiction est une question de probabilité. Prenez le temps d’analyser les distributions sous-jacentes pour comprendre comment votre modèle pense et comment il peut mieux servir vos objectifs.


🚀 Prêt à passer à la vitesse supérieure ? Si vous souhaitez intégrer une IA optimisée pour accélérer votre passage de startup à scale-up, n'hésitez pas à me répondre ! Ensemble, nous créerons des solutions sur mesure pour booster vos performances et optimiser vos processus.

📩 Envoyez-moi un message dès maintenant pour discuter de votre projet.


Ilyssa Summer

Data Scientist, Predictive Modeling

9 mois

Merci d'avoir écrit cet article. Avoir les principes mathématiques de base est très important pour comprendre l'utilisation des modèles. Belle application des mathématiques au l'IA générative. Super article!

Abdoulaye D.

Data Scientist, je permets l'accélération des entreprises grâce à des assistants intuitifs qui permettent aux équipes d'obtenir des résultats de niveau expert sans effort supplémentaire. Découvrez en + dans mon bulletin.

10 mois

Identifiez-vous pour afficher ou ajouter un commentaire

Plus d’articles de Abdoulaye D.

Autres pages consultées

Explorer les sujets