La distribution multinomiale : comprendre les probabilités derrière vos modèles de langage

Abdoulaye D.

Data Scientist, je permets l'accélération des entreprises grâce à des assistants intuitifs qui permettent aux équipes d'obtenir des résultats de niveau expert sans effort supplémentaire. Découvrez en + dans mon bulletin.

Publié le 8 déc. 2024

31 Formules à connaitre en IA générative avant 2025 # 5 - Hors série

English is more your forte? Link in comments!

La distribution multinomiale est une généralisation de la distribution binomiale. Elle modélise les probabilités associées à plusieurs catégories k possibles, avec un total d’essais n.

La distribution binomiale, elle, est un modèle mathématique qui décrit le nombre de succès obtenus dans une série de tentatives indépendantes, où chaque tentative a exactement deux résultats possibles : succès ou échec.

La probabilité d’obtenir exactement k succès sur n essais est donnée par la formule :

Le coefficient binomial, ci-dessus, représente le nombre de façons de choisir k succès parmi n essais.
p : Probabilité de succès à chaque essai.
1−p : Probabilité d’échec.
n : Nombre total d’essais.
k : Nombre de succès recherchés.

Prenons l'exemple simple du lancer d'une pièce de monnaie :

On lance une pièce 10 fois.
Probabilité d’obtenir pile (p) : 0,5.
Probabilité d’obtenir 6 fois pile (k=6) en 10 lancers (n=10) :

Cela signifie qu’il y a environ 20,5 % de chances d’obtenir exactement 6 "piles".

Dans un objectif de Prédiction de conversions, prenons une campagne marketing qui envoie 100 emails. La probabilité qu’un client clique sur le lien est (𝑝) : 0,2. La distribution binomiale donne la probabilité pour chaque valeur k, aidant à prédire combien de clics attendre (k).

Dans une série de transactions, chaque achat a une probabilité 𝑝 d’être rentable. La distribution binomiale permet d’évaluer le nombre probable de transactions réussies.

Dans la réponse à une enquête d'un Service client, si l'on sais la probabilité qu’un client donne une évaluation positive (p), on peut calculer sur les enquêtes envoyées, à combien de réponses positives on peut s'attendre.

Sur 50 enquêtes envoyées, combien de réponses positives peut-on attendre ?

Différence avec la multinomiale est que la binomiale ne permet que Deux résultats possibles (succès/échec) au lieu de plusieurs catégories (ex. : intention A, B, ou C dans un chatbot).

La formule de la multinomiale est donnée par :

avec

n : Nombre total d’essais (par exemple, prédictions ou observations).
x : Nombre d’occurrences observées pour la catégorie i.
p : Probabilité associée à la catégorie i.

Exemple : Imaginez un chatbot qui doit prédire la prochaine intention utilisateur parmi 3 options (A, B, C) :

p(A)=0.5, p(B)=0.3, p(C)=0.2.
Sur 10 prédictions, il pourrait observer 5 A, 3 B, et 2 C.

C'est la distribution multinomiale qui donne la probabilité de ce résultat.

Estimation des gains

La distribution multinomiale est très utile pour modéliser des scénarios avec plusieurs catégories ou options, comme des types d'actifs financiers (actions, obligations, matières premières). Par exemple dans un portefeuille d’investissement, chaque actif peut être classé dans une des catégories : actions, obligations, ou matières premières. La probabilité d'appartenir à une catégorie donnée dépend des tendances du marché.

Comment cela s’applique à l’analyse des tendances du marché ?

Lors de l’analyse des tendances, chaque catégorie d’actifs peut être vue comme une option possible. Les probabilités assignées à chaque catégorie représentent les chances qu’un actif subisse une variation de prix favorable, défavorable, ou stable. En analysant les données historiques, on peut estimer ces probabilités pour chaque catégorie d’actifs en fonction des conditions de marché actuelles.

Exemple :

Probabilité qu’un actif reste stable : 30 %
Probabilité qu’un actif augmente : 50 %
Probabilité qu’un actif baisse : 20 %

Si vous suivez un portefeuille avec 10 actifs, la distribution multinomiale peut prédire combien d’actifs vont probablement augmenter, baisser ou rester stables.

Pourquoi utiliser la multinomiale pour modéliser des marchés ?

Les marchés financiers sont influencés par de nombreux facteurs, ce qui crée des scénarios avec plusieurs résultats possibles simultanément :

Une hausse dans les actions peut coexister avec une baisse des matières premières.
Différents actifs réagissent différemment à une même tendance macroéconomique.

La multinomiale permet de modéliser ces dynamiques complexes de manière probabiliste, ce qui aide à :

Identifier des portefeuilles équilibrés,
Optimiser les stratégies d’investissement et
Prévoir les changements potentiels dans les catégories d’actifs.

Par exemple, une banque veut prévoir la répartition des performances de ses actifs sur une période donnée. Elle utilise alors des données historiques pour estimer les probabilités que les actions augmentent de 5 %, les obligations baissent de 3 %, ou les matières premières restent stables. En appliquant la distribution multinomiale, elle peut simuler différents scénarios et mieux préparer ses décisions d’allocation.

Impact dans le traitement du langage naturel (NLP)

Les modèles NLP comme les transformeurs ou GPT génèrent du texte en évaluant les probabilités sur des ensembles de mots (ou tokens). Ces probabilités suivent une distribution multinomiale, où :

Chaque mot a une probabilité p.
La somme des probabilités sur tout le vocabulaire est 1.

Pour un modèle IA qui classe les clients en plusieurs segments en fonction de leur comportement (achat, clics, abandon), la distribution multinomiale aide à évaluer la probabilité de chaque segment.

Lors de l’analyse des tendances du marché, elle peut modéliser les probabilités de variation des catégories d’actifs (ex. : actions, obligations, matières premières).

Dans un chatbot de service client, la distribution multinomiale est utilisée pour classer les intentions client, comme "demander un remboursement", "poser une question produit", ou "exprimer une plainte".

Vérifier les données d’entraînement pour un fine-tuning avec une distribution multinomiale

Une mauvaise distribution des catégories dans les données d’entraînement peut entraîner des biais dans les prédictions.

Le fine-tuning d'un modèle consiste à ajuster un modèle pré-entraîné sur des données spécifiques pour mieux répondre à vos besoins. Cependant, la qualité et la structure des données d'entraînement jouent un rôle clé dans la réussite de ce processus. Voici les étapes essentielles pour vérifier vos données d'entraînement et éviter les biais ou erreurs.

Lorsque vous effectuez un fine-tuning d’un modèle d’IA qui utilise une distribution multinomiale, il est essentiel de vérifier vos données pour garantir la qualité et l'efficacité de l'entraînement.

Vérifiez la structure des données

Assurez-vous que vos données respectent le format attendu pour une tâche multinomiale. Chaque échantillon doit être associé à une classe ou une distribution de probabilités sur les classes.

Exemple :

Donnée brute : Une phrase ou un texte.
Label : Une classe (ex. : "positif", "négatif", "neutre").
Distribution : [0.2, 0.5, 0.3] pour trois classes.

Problèmes courants :

Classes manquantes ou mal étiquetées.
Distributions qui ne totalisent pas 1.

Analyse de la distribution des classes

La distribution des étiquettes dans les données d’entraînement est cruciale pour éviter le biais.

Équilibrée : Toutes les classes ont un nombre similaire d’échantillons.
Déséquilibrée : Une ou plusieurs classes sont sur-représentées.

Exemple : Si vos classes sont "A", "B", "C" :

Équilibrée : 33 %, 33 %, 34 % d'échantillons.
Déséquilibrée : 80 % "A", 15 % "B", 5 % "C".

Un déséquilibre peut biaiser le modèle en faveur des classes majoritaires.

Nettoyez les données

Assurez-vous que les données sont de haute qualité, corrigez les incohérences dans les annotations, supprimez les doublons pour éviter le sur-apprentissage et identifiez et nettoyez les entrées incorrectes.

Vérifiez la taille du dataset

Pour une tâche multinomiale, un dataset trop petit peut poser problème si vous avez de nombreuses classes.

Plus il y a de classes, plus vous avez besoin d’échantillons par classe pour éviter le sur-ajustement. Si les données sont insuffisantes, envisagez de la data Augmentation (syntaxe, paraphrase, bruit aléatoire) ou un Transfert Learning avec un modèle pré-entraîné.

Surveillez les distributions dans le fine-tuning

Pendant le fine-tuning, surveillez la perte de log-likelihood et la stabilité des gradients. Si les gradients explosent ou s'annulent, cela peut signaler des erreurs dans les distributions d’entrée.

Testez les données avant l’entraînement

Effectuez un test simple pour vous assurer que votre modèle apprend correctement. Utilisez un sous-ensemble des données pour un entraînement rapide et vérifiez que le modèle atteint une perte faible sur ce sous-ensemble. Si la perte reste élevée, examinez les données d’entraînement pour détecter des erreurs.

Conseil du jour

Un modèle bien formé sur des données de mauvaise qualité produira des résultats peu fiables. Prenez le temps d’explorer et de nettoyer vos données pour éviter des surprises coûteuses en production. Rappelez-vous que toute prédiction est une question de probabilité. Prenez le temps d’analyser les distributions sous-jacentes pour comprendre comment votre modèle pense et comment il peut mieux servir vos objectifs.

🚀 Prêt à passer à la vitesse supérieure ? Si vous souhaitez intégrer une IA optimisée pour accélérer votre passage de startup à scale-up, n'hésitez pas à me répondre ! Ensemble, nous créerons des solutions sur mesure pour booster vos performances et optimiser vos processus.

📩 Envoyez-moi un message dès maintenant pour discuter de votre projet.

Les Maths en Langage Naturel

1 205 abonné

+ S’abonner

Ilyssa Summer

Data Scientist, Predictive Modeling

9 mois

Merci d'avoir écrit cet article. Avoir les principes mathématiques de base est très important pour comprendre l'utilisation des modèles. Belle application des mathématiques au l'IA générative. Super article!

J’aime

Réagir

1 réaction

Abdoulaye D.

Data Scientist, je permets l'accélération des entreprises grâce à des assistants intuitifs qui permettent aux équipes d'obtenir des résultats de niveau expert sans effort supplémentaire. Découvrez en + dans mon bulletin.

10 mois

English is more your forte? Read it here: https://medium.com/ethercourt/the-multinomial-distribution-understanding-the-probabilities-behind-your-language-models-d256a175030d

J’aime

Réagir

1 réaction

Voir plus de commentaires

Identifiez-vous pour afficher ou ajouter un commentaire

Plus d’articles de Abdoulaye D.

L’INTELLIGENCE ARTIFICIELLE, UNE ALLIÉE POUR LE CLIMAT ?

21 juil. 2025

L’INTELLIGENCE ARTIFICIELLE, UNE ALLIÉE POUR LE CLIMAT ?

Promesses, réalités et défis d’une technologie au service de la planète TLDR Lors des catastrophes climatiques, l’IA…

2 commentaires
KL Divergence : mesurer la différence entre deux mondes

5 déc. 2024

KL Divergence : mesurer la différence entre deux mondes

31 Formules à connaitre en IA générative avant 2025 # 4 - Hors série English is more your forte? Read it here! La KL…

1 commentaire
Comprendre la Cross Entropy : Le Cœur de l’Évaluation

4 déc. 2024

Comprendre la Cross Entropy : Le Cœur de l’Évaluation

31 Formules à connaitre en IA générative avant 2025 # 3 - Hors série English is more your forte? Read it here!…

1 commentaire
L’Entropie – Décoder l’Incertitude pour Mieux Structurer l’Information

2 déc. 2024

L’Entropie – Décoder l’Incertitude pour Mieux Structurer l’Information

31 Formules à connaitre en IA générative avant 2025 # 2 - Hors série English is more your forte? Read it here!…

4 commentaires
Probabilité Conditionnelle : L'Art de Prendre des Décisions Contextuelles avec l’IA

1 déc. 2024

Probabilité Conditionnelle : L'Art de Prendre des Décisions Contextuelles avec l’IA

31 Formules à connaitre en IA générative avant 2025 # 1 - Hors série English is more your forte? Read it here! Imaginez…

4 commentaires
Vos clients sur le point de partir ? Les secrets des systèmes de recommandation dévoilés

10 nov. 2024

Vos clients sur le point de partir ? Les secrets des systèmes de recommandation dévoilés

English is more your forte? Read it here! 🧙 Devenez un magicien des recommandations (cape et baguette non incluses) Le…

5 commentaires
Révolution dans le traitement du langage : les modèles de langage sans multiplication matricielle

18 sept. 2024

Révolution dans le traitement du langage : les modèles de langage sans multiplication matricielle

English is more your thing? Read it here Libérez-vous de la matrice et accélérez vos projets d'IA. L'edge computing et…

4 commentaires
Au-delà des distances : Comprendre les divergences statistiques en data science

10 sept. 2024

Au-delà des distances : Comprendre les divergences statistiques en data science

Apprenez comment les utiliser pour améliorer vos modèles de machine learning et vos analyses de données. The English…

2 commentaires
Révolution dans le traitement du langage : les modèles de langage sans multiplication matricielle

5 sept. 2024

Révolution dans le traitement du langage : les modèles de langage sans multiplication matricielle

Libérez-vous de la matrice et accélérez vos projets d'IA. L'edge computing et le traitement du langage naturel (NLP)…

1 commentaire
Des usages des technologies décentralisées en entreprises : les chaînes [3/5]

1 juil. 2019

Des usages des technologies décentralisées en entreprises : les chaînes [3/5]

· De l'Implémentation Les entreprises en sont pour la plupart de celles qui ont testé, à l’étape de prototype. En…

1 commentaire

See all articles

La distribution multinomiale : comprendre les probabilités derrière vos modèles de langage

Abdoulaye D.

Data Scientist, je permets l'accélération des entreprises grâce à des assistants intuitifs qui permettent aux équipes d'obtenir des résultats de niveau expert sans effort supplémentaire. Découvrez en + dans mon bulletin.

31 Formules à connaitre en IA générative avant 2025 # 5 - Hors série

Estimation des gains

Comment cela s’applique à l’analyse des tendances du marché ?

Pourquoi utiliser la multinomiale pour modéliser des marchés ?

Impact dans le traitement du langage naturel (NLP)

Vérifier les données d’entraînement pour un fine-tuning avec une distribution multinomiale

Vérifiez la structure des données

Analyse de la distribution des classes

Nettoyez les données

Vérifiez la taille du dataset

Surveillez les distributions dans le fine-tuning

Testez les données avant l’entraînement

Conseil du jour

Les Maths en Langage Naturel

1 205 abonné

Plus d’articles de Abdoulaye D.

Autres pages consultées

L’Intelligence Artificielle : une mode ou un véritable changement de paradigme ?

Non, l'IA de crée pas le nom

Gen AI : L’Illusion de la Stabilité

IA et esprit critique: le piège d’une bienveillance algorithmique

5 phénomènes cognitifs auxquels l’IA expose l’intelligence humaine

Article certifié 100 % écrit par un humain

Produit & Intelligence Artificielle : dans les zones grises, c’est l’intention qui fait le produit

Edito #349

Intelligence artificielle et bœuf en gelée

Modèles de raisonnement IA : une révolution technique pour l'industrie

Explorer les sujets

31 Formules à connaitre en IA générative avant 2025 # 5 - Hors série

Estimation des gains

Comment cela s’applique à l’analyse des tendances du marché ?

Pourquoi utiliser la multinomiale pour modéliser des marchés ?

Impact dans le traitement du langage naturel (NLP)

Vérifier les données d’entraînement pour un fine-tuning avec une distribution multinomiale

Vérifiez la structure des données

Analyse de la distribution des classes

Nettoyez les données

Vérifiez la taille du dataset

Surveillez les distributions dans le fine-tuning

Testez les données avant l’entraînement

Conseil du jour

Les Maths en Langage Naturel

1 205 abonné

Plus d’articles de Abdoulaye D.

L’INTELLIGENCE ARTIFICIELLE, UNE ALLIÉE POUR LE CLIMAT ?

KL Divergence : mesurer la différence entre deux mondes

Comprendre la Cross Entropy : Le Cœur de l’Évaluation

L’Entropie – Décoder l’Incertitude pour Mieux Structurer l’Information

Probabilité Conditionnelle : L'Art de Prendre des Décisions Contextuelles avec l’IA

Vos clients sur le point de partir ? Les secrets des systèmes de recommandation dévoilés

Révolution dans le traitement du langage : les modèles de langage sans multiplication matricielle

Au-delà des distances : Comprendre les divergences statistiques en data science

Révolution dans le traitement du langage : les modèles de langage sans multiplication matricielle

Des usages des technologies décentralisées en entreprises : les chaînes [3/5]

Autres pages consultées

L’Intelligence Artificielle : une mode ou un véritable changement de paradigme ?

Non, l'IA de crée pas le nom

Gen AI : L’Illusion de la Stabilité

IA et esprit critique: le piège d’une bienveillance algorithmique

5 phénomènes cognitifs auxquels l’IA expose l’intelligence humaine

Article certifié 100 % écrit par un humain

Produit & Intelligence Artificielle : dans les zones grises, c’est l’intention qui fait le produit

Edito #349

Intelligence artificielle et bœuf en gelée

Modèles de raisonnement IA : une révolution technique pour l'industrie

Explorer les sujets

1 205 abonné