Mod`les de RI fond´s sur l’information
                      e              e

                          St´phane Clinchant
                            e                               1,2       Eric Gaussier   2


                                      1   Xerox Research Centre Europe
                                2   Laboratoire d’Informatique de Grenoble
                                              Univ. Grenoble 1


                                                 18 Mars 2010




S.Clinchant E.Gaussier (XRCE-LIG)         Mod`les de RI fond´s sur l’information
                                             e              e                             18 Mars 2010   1 / 37
Contenu Informatif

Utiliser l’information de Shannon pour pond´rer les mots dans les
                                           e
documents



                                                                             P(X)
                                                                             −log P(X)




Inf(x) = − log P(x|ΘC ) = Contenu Informatif
Ecart au comportement moyen




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                                  18 Mars 2010   2 / 37
Contenu Informatif

Utiliser l’information de Shannon pour pond´rer les mots dans les
                                           e
documents



                                                                             P(X)
                                                                             −log P(X)




Inf(x) = − log P(x|ΘC ) = Contenu Informatif
Ecart au comportement moyen
Observation par Harter (70):
Les mots ”Non-Fonctionnels” s’´cartent d’une distribution de Poisson.
                              e


S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                                  18 Mars 2010   2 / 37
Mod`les fond´s sur l’information
   e        e

Id´e Principale:
  e
   1   Les fr´quences discr`tes des termes (x) sont renormalis´es en
             e             e                                     e
       valeurs continues (t(x)), du fait de la variabilit´ des longueurs de
                                                         e
       documents.
   2   Pour chaque terme w , on suppose que les valeurs t(x) suivent une
       distribution P de param`tre λw sur le corpus.
                              e
   3   Requˆtes et documents sont compar´s avec une mesure de surprise,
           e                              e
       une moyenne d’information de la forme:
                                                    q                  d
                     RSV (q, d) =                 −xw log Prob(Xw ≥ t(xw )|λw )
                                       w ∈q∩d




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   3 / 37
Plan



   1   Propri`t´s th´oriques des mod`les
             ee     e               e
              Contraintes Heuristiques des mod`les de R.I
                                              e
              Ph´nom`ne de Rafale
                e     e
   2   Exemples de Mod`les
                      e
              Le mod`le log-logistique
                     e
              Loi de Puissance liss´e
                                   e
   3   Validation Experimentale
   4   Extension au PRF




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   4 / 37
Contraintes Heuristiques (1)

Une fonction d’ordonnancement en RI prend la forme suivante:
                                                          q     d
                         RSV (q, d) =                 f (xw )h(xw , yd , zw , θ)
                                           w ∈q∩d

 q                                    d
xw fr´quence du mot dans la requete, xw dans le document
     e
yd Longueur du document d
zw = Fw ou zw = Nw
θ param`tre du mod`le de RI.
         e        e
Fw Frequence de w dans le corpus : Fw = d xw   d
                                                 d
Nw Fr´quence Documentaire de w : Nw = d I (xw > 0)
       e
N Nombre de documents dans la collection
⇒ Etude des propri`t´s de h
                  ee



S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                            18 Mars 2010   5 / 37
Contraintes Heuristiques (2)

Hypoth`ses:
      e
       Condition 1: Les documents avec plus d’occurences d’un terme de
       la requˆte devraient avoir un score plus grand que ceux qui en ont
              e
       moins (Luhn)

                                    ∂h(x, y , z, θ)
                    ∀(y , z, θ),                    > 0 (h est croissante en x)
                                        ∂x




S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                      18 Mars 2010   6 / 37
Contraintes Heuristiques (2)

Hypoth`ses:
      e
       Condition 1: Les documents avec plus d’occurences d’un terme de
       la requˆte devraient avoir un score plus grand que ceux qui en ont
              e
       moins (Luhn)

                                    ∂h(x, y , z, θ)
                    ∀(y , z, θ),                    > 0 (h est croissante en x)
                                        ∂x


       Condition 2: Cependant, la diff´rence de score devrait ˆtre plus
                                     e                       e
       petite pour de grandes fr´quences. Ex: 2→4, 50→ 52
                                e

                                         ∂ 2 h(x, y , z, θ)
                          ∀(y , z, θ),                      < 0 (h est concave)
                                               ∂x 2



S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                      18 Mars 2010   6 / 37
Contraintes Heuristiques (3)

Hypoth`ses:
      e
       Condition 3: On devrait p´naliser les longs documents compar´s
                                  e                                   e
       aux documents plus courts, car les longs documents sont suceptibles
       de couvrir diff´rents sujets
                     e

                                    ∂h(x, y , z, θ)
                      ∀(x, z, θ),                   < 0 (h d´croissante en y)
                                                            e
                                        ∂y




S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                      18 Mars 2010   7 / 37
Contraintes Heuristiques (3)

Hypoth`ses:
      e
       Condition 3: On devrait p´naliser les longs documents compar´s
                                  e                                   e
       aux documents plus courts, car les longs documents sont suceptibles
       de couvrir diff´rents sujets
                     e

                                    ∂h(x, y , z, θ)
                      ∀(x, z, θ),                   < 0 (h d´croissante en y)
                                                            e
                                        ∂y


       Condition 4: Enfin, il est important de diminuer l’importance des
       mots apparaissant dans beaucoup de documents (IDF)

                                            ∂h(x, y , z, θ)
                             ∀(x, y , θ),                   < 0 (effet IDF)
                                                ∂z
cf Fang et al, A Formal Study of Information Retrieval Heuristics, SIGIR’04


S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                      18 Mars 2010   7 / 37
Ph´nom`ne de Rafale (Burstiness)
  e   e


On s’int´resse maintenant aux lois de probabilit´s sur les fr´quences:
        e                                       e            e

         Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson
                                     e                  e
         s’ajuste mal aux donn´es.
                              e
         Une explication possible: le comportement en rafale des mots, ou
         cr´pitement (burstiness). D´crit le fait que les mots, dans un
           e                         e
         document, tendent ` apparaˆ
                            a          ıtre par paquets




    1
        Poisson Mixtures
S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   8 / 37
Ph´nom`ne de Rafale (Burstiness)
  e   e


On s’int´resse maintenant aux lois de probabilit´s sur les fr´quences:
        e                                       e            e

         Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson
                                     e                  e
         s’ajuste mal aux donn´es.
                              e
         Une explication possible: le comportement en rafale des mots, ou
         cr´pitement (burstiness). D´crit le fait que les mots, dans un
           e                         e
         document, tendent ` apparaˆ
                            a          ıtre par paquets
         Une fois que l’on a observ´ une occurrence d’un mot dans un
                                   e
         document, il est bien plus probable d’observer de nouvelles
         occurrences de ce mot




    1
        Poisson Mixtures
S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   8 / 37
Ph´nom`ne de Rafale
  e   e

Definition (Cas discret ECIR’08)
Une distribution discr`te P est en rafale ou cr´pite ssi la suite:
                      e                        e

                                    g (n) = P(X ≥ n + 1|X ≥ n)

est une suite strictement croissante




S.Clinchant E.Gaussier (XRCE-LIG)     Mod`les de RI fond´s sur l’information
                                         e              e                      18 Mars 2010   9 / 37
Ph´nom`ne de Rafale
  e   e

Definition (Cas discret ECIR’08)
Une distribution discr`te P est en rafale ou cr´pite ssi la suite:
                      e                        e

                                    g (n) = P(X ≥ n + 1|X ≥ n)

est une suite strictement croissante

Definition (Cas g´n´ral)
                e e
Une distribution continue P est en rafale ou cr´pite ssi ∀ > 0 la fonction
                                               e
g:
                       g (x) = P(X ≥ x + |X ≥ x)
est une fonction strictement croissante en x.



S.Clinchant E.Gaussier (XRCE-LIG)     Mod`les de RI fond´s sur l’information
                                         e              e                      18 Mars 2010   9 / 37
Distribution                        En rafale
                                   Poisson                             Non
                                Geometrique                          Neutre
                            N´gative Binomiale
                              e                                    Oui si r < 1
                          Beta N´gative Binomiale
                                 e                                     Oui
                                   Pareto                              Oui
                               Log-Logistique                          Oui




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                           18 Mars 2010   10 / 37
Mod`les d’Information & Contraintes heuristiques:
   e
Mod`les d´finis par:
   e     e
                                                                   Fonction h
                                                  q                 d
                    RSV (q, d) =                 xw − log Prob(X ≥ tw |λw )                    (1)
                                      w ∈q∩d


        d
       tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante
            e                e     e e                           e
       en y .




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                         18 Mars 2010   11 / 37
Mod`les d’Information & Contraintes heuristiques:
   e
Mod`les d´finis par:
   e     e
                                                                   Fonction h
                                                  q                 d
                    RSV (q, d) =                 xw − log Prob(X ≥ tw |λw )                    (1)
                                      w ∈q∩d


        d
       tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante
            e                e     e e                           e
       en y .

       Condition 1 (h croissante) Direct
       Condition 3 (p´nalise longs documents) Direct.
                     e




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                         18 Mars 2010   11 / 37
Mod`les d’Information & Contraintes heuristiques:
   e
Mod`les d´finis par:
   e     e
                                                                   Fonction h
                                                  q                 d
                    RSV (q, d) =                 xw − log Prob(X ≥ tw |λw )                    (1)
                                      w ∈q∩d


        d
       tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante
            e                e     e e                           e
       en y .

       Condition 1 (h croissante) Direct
       Condition 3 (p´nalise longs documents) Direct.
                     e
       Condition 2 (h concave)

Th´or`me
  e e
Si la distribution P est en rafale, alors le mod`le d’information d´fini avec
                                                e                  e
P est concave
S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                         18 Mars 2010   11 / 37
Mod`les d’Information & Contraintes heuristiques:
   e


Soit P une distribution de classe C 2 . Une condition n´cessaire pour que P
                                                       e
soit en rafale est :
                           ∂ 2 log(P(X ≥ x))
                                               >0
                                   ∂x 2
Or
                                    ∂ 2 log(P(X ≥ x))
                   Concavit´ ⇐⇒
                           e                           >0
                                            ∂x 2
       Condition 4 (effet IDF) et 2 Conditions d’ajustement suppl´mentaires
                                                                e
       d´pendent du choix de la distribution P
        e




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   12 / 37
Les mod`les log-logistique et loi de puissance liss´e
                        e                                           e




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   13 / 37
La distribution log-logistique




       On consid`re ici une loi log-logistique contrainte:
                e
                                                             r
                                    P(X > x|r ) =                  (r m´diane)
                                                                       e
                                                          (x + r )

       On se restreint ` cette forme ` cause de relations avec d’autres
                       a             a
       distributions (N´gative Binomiale, Beta N´gative Binomiale)
                       e                         e




S.Clinchant E.Gaussier (XRCE-LIG)      Mod`les de RI fond´s sur l’information
                                          e              e                       18 Mars 2010   14 / 37
log P(X > x) Poisson et Log-Logistique


                                                r=0.001 Poisson               r=0.001
               0




                                                r=0.01 Poisson                r=0.01
                                                r=0.1 Poisson                 r=0.1
               −2
               −4
log P(X > x)

               −6
               −8
               −10




                     0              5                             10            15

                                                   x

S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   15 / 37
Ajustement aux donn´es
                   e


Pour v´rifier l’ajustement aux donn´es, on a effectu´ un test du χ2 sous
      e                           e               e
ces deux hypoth`ses:
                  e
                ˆ
     Poisson: λw = Fw          N
                                     Fw
       Log-Logistique: rˆ =
                        w            N


⇒ La statistique du χ2 est bien meilleure pour la log-logistique
(confirme des travaux pr´cedents)
                       e
La loi log-logistique est un ”bon” mod`le de fr´quences sur le corpus
                                      e        e
(meilleur que Poisson, G´om´trique, Binomial et 2-Poisson).
                          e e
Est-ce un bon mod`le de RI ?
                 e




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   16 / 37
Mod`le Log-Logistique pour la RI (LGD)
   e



Le mod`le LGD est d´fini par
      e            e
                       d    d           m
   1   Normalisation: tw = xw log(1 + c yd ) (N2 DFR)
   2            e              d
       Loi de fr´quences: Les tw sont distribu´s par une loi log-logistique de
                                              e
                       Nw
       param`tre rw = N
             e
   3

                                                  q             Nw    d          Nw
                     RSV (q, d) =                xw log(           + tw ) − log(    )
                                                                N                N
                                      w ∈q∩d

Respecte toutes les conditions quels que soient les param`tres.
                                                         e




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                          18 Mars 2010   17 / 37
Loi de Puissance Liss´e (Smoothed Power Law SPL)
                     e


On appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre
                                e                                      e
0<λ<1:                                       x
                                          λ x+1 − λ
                         P(X > x|λ) =
                                            1−λ




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   18 / 37
Loi de Puissance Liss´e (Smoothed Power Law SPL)
                     e


On appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre
                                e                                      e
0<λ<1:                                       x
                                          λ x+1 − λ
                         P(X > x|λ) =
                                            1−λ
Mod`le de RI:
    e
                       d    d           m
   1   Normalisation: tw = xw log(1 + c yd ) (N2 DFR)
   2            e              d
       Loi de fr´quences: Les tw sont distribu´s par une loi de puissance
                                              e
                                 Nw
       liss´e de param`tre rw = N
           e          e
Respecte aussi toutes les conditions




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   18 / 37
Loi de Puissance Liss´e
                     e

                                                lambda = 0.005
                        0


                                                                             loglogistic
                                                                             spl
                        −2
           log P(X>x)
                        −4
                        −6
                        −8




                             0              5                        10              15

                                                        x

S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                             18 Mars 2010   19 / 37
Caract´risation des mod`les d’information
      e                e

   1   Normalisation de fr´quences v´rifie:
                          e         e
                                      d
                                    ∂tw        d
                                             ∂tw       ∂ 2 xwd
                                      d
                                        > 0;     < 0;          ≥0
                                    ∂xw      ∂yd      ∂(tw )2
                                                           d

   2   Loi de Probabilit´ continue et en rafale
                        e
   3   Fonction d’Ordonnancement
                                                        q                d
                        RSV (q, d) =                  −xw log Prob(Xw ≥ tw |λw )
                                            w ∈q∩d

   4   Param`tre sur la collection
            e
                                                          F w Nw
                                               λw =          or
                                                          N     N


S.Clinchant E.Gaussier (XRCE-LIG)     Mod`les de RI fond´s sur l’information
                                         e              e                      18 Mars 2010   20 / 37
Relations avec d’autres mod`les
                           e
Relation avec les mod`les de langues:
                     e
   1                   d    d m
       Normalisation: tw = xw c yd (N1 DFR)
                Fw
   2   rw =     N    et Loi Log-Logistique
   3   Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer
          e        e




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   21 / 37
Relations avec d’autres mod`les
                           e
Relation avec les mod`les de langues:
                     e
   1                   d    d m
       Normalisation: tw = xw c yd (N1 DFR)
                Fw
   2   rw =     N    et Loi Log-Logistique
   3   Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer
          e        e
Relation avec les mod`les DFR:
                     e
Les mod`les DFR sont d´finis de la mani`re suivante:
        e               e             e
                                                   q        d               d
                     RSV (q, d) =                −xw Inf2 (tw ) log Prob1 (tw )
                                      w ∈q∩d

Probl`mes:
     e
       Loi discr`tes avec valeurs continues
                e
       2 Notions d’informations non ”homog`nes”
                                          e
⇒ Nos mod`les reposent sur des lois continues et sur une seule notion
           e
d’Information
S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                       18 Mars 2010   21 / 37
Exp´riences
   e
       Comparaison avec mod`les de langues, BM25, mod`les DFR
                             e                        e
       Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes
                                                 e
       5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t
                    e

                                     Corpus             # Requˆte
                                                               e
                                    ROBUST                 250
                                    CLEF03                 60
                                     GIRT                  75




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   22 / 37
Exp´riences
   e
       Comparaison avec mod`les de langues, BM25, mod`les DFR
                             e                        e
       Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes
                                                 e
       5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t
                    e

                                     Corpus             # Requˆte
                                                               e
                                    ROBUST                 250
                                    CLEF03                 60
                                     GIRT                  75

Divis´ en apprentissage/test
     e
Optimise MAP ou P10 sur une grille de valeurs:
Par exemple:
       k1 ∈ {0.3, 0.5, 0.8, 1.0, 1.2, 1.5, 1.8, 2, 2.2, 2.5} (BM25)
       c ∈ {0.25, 0.5, 0.8, 1, 2, 3, 5, 8, 10} (LGD,DFR)
       µ ∈ {10, 50, 100, 200, 500, 800, 1000, 1500, 2000, 5000, 10000} (LM)
S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   22 / 37
Comparaison avec le lissage de Jelinek-Mercer


Comparaison avec les mod`les de langues
                        e

Table: LM-Jelinek-Mercer vs Log-Logistique apr`s 10 divisions; en gras, les
                                               e
meilleures performances ; ∗ d´note une diff´rence statistiquement significative
                             e            e
                MAP         ROB-d      ROB-t          GIRT          CLEF-d   CLEF-t
                LM           26.0       20.7           40.7           49.2     36.5
                LGD         27.2∗      22.5∗          43.1∗          50.0∗    37.5∗
                P10         ROB-d      ROB-t          GIRT          CLEF-d   CLEF-t
                LM           43.8       35.5           67.5           33.0     26.2
                LGD         46.0∗      38.9∗          69.4∗          33.6∗    26.6∗




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                         18 Mars 2010   23 / 37
Comparaison avec le lissage de Dirichlet



Table: LMDirichlet vs Log-Logistique apr`s 10 divisions; en gras, les meilleures
                                        e
performances ; ∗ d´note une diff´rence statistiquement significative
                  e            e
                MAP         ROB-d      ROB-t          GIRT          CLEF-d   CLEF-t
                DIR          27.1       25.1           41.1           48.5     36.2
                LGD         27.4∗       25.0          42.1∗          49.7∗    36.8∗
                P10         ROB-d      ROB-t          GIRT          CLEF-d   CLEF-t
                DIR          45.6      44.7∗           68.6           33.8     28.4
                LGD         46.2∗       44.4          69.0           34.5∗    28.6




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                         18 Mars 2010   24 / 37
Comparaison avec BM25



BM25 optimis´ seulement avec le param`tre k1
            e                        e

                MAP          ROB-d      ROB-t           GIRT          CLEF-t   CLEF-d
                BM25          26.8       22.4            39.8          34.9     46.8
                LGD          28.2∗      23.5∗           41.4∗          34.8     48.0
                 P10         ROB-d      ROB-t           GIRT          CLEF-t   CLEF-d
                BM25          45.9       42.6            62.6          28.5     33.7
                LGD           46.5      44.3∗           66.6∗          28.7     34.4




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                           18 Mars 2010   25 / 37
Comparaison avec les mod`les DFR
                        e

Table: INL2 et PL2 versus Log-Logistique apr`s 10 divisions; en gras, les
                                             e
meilleures performances; ∗ d´note une diff´rence statistiquement significative
                            e            e
                MAP         ROB-d       ROB-t          GIRT          CLEF-d    CLEF-t
                INL2         27.7        24.8           42.5          47.7      37.5
                LGD         28.5∗       25.0∗          43.1∗          48.0      37.4
                 P10        ROB-d       ROB-t          GIRT          CLEF-d    CLEF-t
                INL2        47.7∗        43.3           67.0          33.4      27.3
                LGD          47.0        43.5          69.4∗          33.3      27.2
                MAP          ROB-d       ROB-t          GIRT          CLEF-t   CLEF-d
                LGD          27.3∗        24.7           40.5          36.2     47.5
                PL2           26.2        24.8          40.6           36.0     47.2
                P10          ROB-d       ROB-t          GIRT          CLEF-t   CLEF-d
                LGD           46.6        43.2           66.7          28.5     33.7
                PL2           46.4       44.1∗          68.2∗          28.7     33.1

S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                          18 Mars 2010   26 / 37
Comparaison SPL avec le mod`le de langue Dirichlet
                           e




Table: SPL versus LM-Dirichlet after 10 splits; bold indicates significant difference
               MAP         ROB-d      ROB-t           GIR         T3-t       CL-t   CL-d
               DIR          26.7       25.0           40.9        27.1       36.2   50.2
               SPL          25.6       24.9           42.1        26.8       36.4   46.9
               P10         ROB-d      ROB-t           GIR         T3-t       CL-t   CL-d
               DIR          45.2       43.8           68.2        52.8       27.3   32.8
               SPL          46.6       44.7           70.8        55.3       27.1   32.9




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                              18 Mars 2010   27 / 37
Comparaison SPL avec les mod`les InL2 et PL2 (DFR)
                            e

Table: SPL versus DFR models after 10 splits; bold indicates significant difference
                MAP ROB-d ROB-t GIR                               T3-t       CL-t CL-d
                INL  26.9  24.3 40.4                              24.8       35.5 49.4
                SPL  26.6  24.6 40.7                              25.4       34.6 48.1
                P10 ROB-d ROB-t GIR                               T3-t       CL-t CL-d
                INL  47.6  42.8 63.4                              52.5       28.8 33.8
                SPL  47.8  44.1 68.0                              53.9       28.7 33.6
                MAP ROB-d ROB-t GIR                               T3-t       CL-t CL-d
                SPL  26.3  25.2 42.7                              25.3       37.4 44.1
                PL2  26.3  25.2 42.8                              25.8       37.3 45.7
                P10 ROB-d ROB-t GIR                               T3-t       CL-t CL-d
                SPL  47.0  45.2 69.8                              55.4       25.9 32.9
                PL2  46.0  45.2 69.3                              54.8       26.2 32.7


S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                            18 Mars 2010   28 / 37
Extension au PRF


Moyenne de l’information sur les premiers documents retourn´s:
                                                           e
                                        1                       d
                          Info(w ) =              − log(P(Xw > tw ; λw ))
                                        n
                                            d∈R

Mise ` jour de la requˆte: (similaire au mod`le Bo2)
     a                e                     e
                                        q
                               q2      xw         Info(w )
                              xw =         q +β
                                     maxw xw    maxw Info(w )

Le mod`le de PRF et le mod`le de RI sont les mˆmes !
      e                   e                   e




S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                      18 Mars 2010   29 / 37
∗
Table: MAP,           d´note une diff´rence statistiquement significative avec LM et Bo2
                       e            e
            Model            n      TC     ROB-t          GIRT            TREC3-t   CLEF-t
          LM+MIX              5      5      27.5          44.4              30.7      36.6
          INL+Bo2             5      5      26.5           42.0             30.6      37.6
            LGD               5      5     28.3∗           44.3            32.9∗      37.6
          LM+MIX              5     10      28.3          45.7∗             33.6      37.4
          INL+Bo2             5     10      27.5           42.7             32.6      37.5
            LGD               5     10     29.4∗           44.9            35.0∗     40.2∗
          LM+MIX             10     10      28.4           45.5             31.8      37.6
          INL+Bo2            10     10      27.2           43.0             32.3      37.4
            LGD              10     10     30.0∗          46.8∗            35.5∗     38.9
          LM+MIX             10     20      29.0           46.2             33.7      38.2
          INL+Bo2            10     20      27.7           43.5             33.8      37.7
            LGD              10     20     30.3∗          47.6∗            37.4∗     38.6
          LM+MIX             20     20      28.6           47.9             32.9      37.8
          INL+Bo2            20     20      27.4           44.3             33.5      36.8
            LGD              20     20      29.5∗         48.9∗            37.2∗     41.0∗
S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                            18 Mars 2010   30 / 37
Table: Mean average precision of PRF experiments; bold indicates best
performance, ∗ significant difference over LM and Bo2 models
               Model         N      TC     ROB-t            GIR            T3-t   CL-t
               LGD           5       5     28.3∗            44.3          32.9∗    37.6
               SPL           5       5     28.9∗           45.6∗          32.9∗   39.0∗
               LGD           5      10     29.4∗            44.9          35.0∗   40.2∗
               SPL           5      10     29.6∗           47.0∗          34.6∗   39.5∗
               LGD           10     10     30.0∗           46.8∗          35.5∗    38.9
               SPL           10     10     30.0∗           48.9∗          33.8∗   39.1∗
               LGD           10     20     30.3∗           47.6∗          37.4∗    38.6
               SPL           10     20     29.9∗           50.2∗           34.3   39.7∗
               LGD           20     20      29.5∗          48.9∗          37.2∗   41.0∗
               SPL           20     20      28.8           50.3∗           33.9   39.0∗



S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                            18 Mars 2010   31 / 37
Conclusion

       Caract´risation analytique des contraintes heuristiques
             e
       Ph´nom`ne de rafale pour les lois continues
         e    e
       Une nouvelle famille de mod`les de RI
                                  e
              ”En Rafale” ⇒ Mod`le concave
                               e
       Extension au PRF
       Les mod`les log-logistique et loi de puissance liss´e
               e                                          e
              LGD contient un mod`le de langue
                                    e
              LGD, SPL ≥ mod`le de langues
                                 e
              LGD,SPL ≈ DFR
              plus simple que les mod`les DFR
                                      e
              les meilleures performances en PRF

                                             Questions ?



S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   32 / 37
La distribution log-logistique

        Church et al. 2 ont propos´ la distribution N´gative Binomiale
                                  e                  e
        (m´lange infini de Poisson) pour mod´liser les fr´quences.
          e                                   e         e
        ⇒ ”meilleur” mod`le que 2-Poisson
                          e
        Nous avons propos´ pr´cedemment la loi Beta-Negative Binomiale
                         e e
        (BNB):
                            BNB(x|r ) =              Beta(θ|1, 1)Negbin(x|θ, r )

        On consid`re ici une loi log-logistique contrainte:
                 e
                                                             r
                                    P(X > x|r ) =                  (r m´diane)
                                                                       e
                                                          (x + r )

        Cette log-logistique contrainte peut ˆtre vue comme une version
                                             e
        continue d’une Beta-N´gative Binomiale
                               e

    2
        Poisson Mixtures
S.Clinchant E.Gaussier (XRCE-LIG)      Mod`les de RI fond´s sur l’information
                                          e              e                       18 Mars 2010   33 / 37
Relation avec les Mod`les DFR
                     e



Les mod`les DFR sont d´finis de la mani`re suivante:
       e              e               e
                                q        d         d                        q        d               d
RSV (q, d) =                   xw Inf2 (tw )Inf1 (tw ) =                  −xw Inf2 (tw ) log Prob1 (tw )
                    w ∈q∩d                                     w ∈q∩d

On peut montrer que :
       Inf2 rend les mod`les DFR concave (condition 2)
                        e
       Sans Inf2 , les mod`les DFR obtiennent de mauvaises performances
                          e




S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                               18 Mars 2010   34 / 37
Experimental Fit



Chi Square test on Robust collection, with terms appearing with document
frequency ≥ 100; Frequency range divided into three intervals: [0, 3[,
[3, 10[ and [10, 100[.
Hypothesis
                 ˆ
       Poisson: λw =           Fw
                               N
                      ˆ
       Log-Logistic: λw =           Fw
                                    N




S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                      18 Mars 2010   35 / 37
Chi Square Statistics




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   36 / 37
Comparaison des mod`les
                   e

                                                   r = 0.005
               8
                          LGD
           2 4 6


                          INL
            Weight




                          SPL
                          PL
               0




                      0                   5                          10        15
                                                        x

                                                   r = 5e−04

                          LGD
                  8




                          INL
           Weight




                          SPL
            4




                          PL
               0




                      0                   5                          10        15
                                                        x


S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   37 / 37

Modèles d\'Information CORIA\'2010

  • 1.
    Mod`les de RIfond´s sur l’information e e St´phane Clinchant e 1,2 Eric Gaussier 2 1 Xerox Research Centre Europe 2 Laboratoire d’Informatique de Grenoble Univ. Grenoble 1 18 Mars 2010 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 1 / 37
  • 2.
    Contenu Informatif Utiliser l’informationde Shannon pour pond´rer les mots dans les e documents P(X) −log P(X) Inf(x) = − log P(x|ΘC ) = Contenu Informatif Ecart au comportement moyen S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 2 / 37
  • 3.
    Contenu Informatif Utiliser l’informationde Shannon pour pond´rer les mots dans les e documents P(X) −log P(X) Inf(x) = − log P(x|ΘC ) = Contenu Informatif Ecart au comportement moyen Observation par Harter (70): Les mots ”Non-Fonctionnels” s’´cartent d’une distribution de Poisson. e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 2 / 37
  • 4.
    Mod`les fond´s surl’information e e Id´e Principale: e 1 Les fr´quences discr`tes des termes (x) sont renormalis´es en e e e valeurs continues (t(x)), du fait de la variabilit´ des longueurs de e documents. 2 Pour chaque terme w , on suppose que les valeurs t(x) suivent une distribution P de param`tre λw sur le corpus. e 3 Requˆtes et documents sont compar´s avec une mesure de surprise, e e une moyenne d’information de la forme: q d RSV (q, d) = −xw log Prob(Xw ≥ t(xw )|λw ) w ∈q∩d S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 3 / 37
  • 5.
    Plan 1 Propri`t´s th´oriques des mod`les ee e e Contraintes Heuristiques des mod`les de R.I e Ph´nom`ne de Rafale e e 2 Exemples de Mod`les e Le mod`le log-logistique e Loi de Puissance liss´e e 3 Validation Experimentale 4 Extension au PRF S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 4 / 37
  • 6.
    Contraintes Heuristiques (1) Unefonction d’ordonnancement en RI prend la forme suivante: q d RSV (q, d) = f (xw )h(xw , yd , zw , θ) w ∈q∩d q d xw fr´quence du mot dans la requete, xw dans le document e yd Longueur du document d zw = Fw ou zw = Nw θ param`tre du mod`le de RI. e e Fw Frequence de w dans le corpus : Fw = d xw d d Nw Fr´quence Documentaire de w : Nw = d I (xw > 0) e N Nombre de documents dans la collection ⇒ Etude des propri`t´s de h ee S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 5 / 37
  • 7.
    Contraintes Heuristiques (2) Hypoth`ses: e Condition 1: Les documents avec plus d’occurences d’un terme de la requˆte devraient avoir un score plus grand que ceux qui en ont e moins (Luhn) ∂h(x, y , z, θ) ∀(y , z, θ), > 0 (h est croissante en x) ∂x S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 6 / 37
  • 8.
    Contraintes Heuristiques (2) Hypoth`ses: e Condition 1: Les documents avec plus d’occurences d’un terme de la requˆte devraient avoir un score plus grand que ceux qui en ont e moins (Luhn) ∂h(x, y , z, θ) ∀(y , z, θ), > 0 (h est croissante en x) ∂x Condition 2: Cependant, la diff´rence de score devrait ˆtre plus e e petite pour de grandes fr´quences. Ex: 2→4, 50→ 52 e ∂ 2 h(x, y , z, θ) ∀(y , z, θ), < 0 (h est concave) ∂x 2 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 6 / 37
  • 9.
    Contraintes Heuristiques (3) Hypoth`ses: e Condition 3: On devrait p´naliser les longs documents compar´s e e aux documents plus courts, car les longs documents sont suceptibles de couvrir diff´rents sujets e ∂h(x, y , z, θ) ∀(x, z, θ), < 0 (h d´croissante en y) e ∂y S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 7 / 37
  • 10.
    Contraintes Heuristiques (3) Hypoth`ses: e Condition 3: On devrait p´naliser les longs documents compar´s e e aux documents plus courts, car les longs documents sont suceptibles de couvrir diff´rents sujets e ∂h(x, y , z, θ) ∀(x, z, θ), < 0 (h d´croissante en y) e ∂y Condition 4: Enfin, il est important de diminuer l’importance des mots apparaissant dans beaucoup de documents (IDF) ∂h(x, y , z, θ) ∀(x, y , θ), < 0 (effet IDF) ∂z cf Fang et al, A Formal Study of Information Retrieval Heuristics, SIGIR’04 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 7 / 37
  • 11.
    Ph´nom`ne de Rafale(Burstiness) e e On s’int´resse maintenant aux lois de probabilit´s sur les fr´quences: e e e Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson e e s’ajuste mal aux donn´es. e Une explication possible: le comportement en rafale des mots, ou cr´pitement (burstiness). D´crit le fait que les mots, dans un e e document, tendent ` apparaˆ a ıtre par paquets 1 Poisson Mixtures S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 8 / 37
  • 12.
    Ph´nom`ne de Rafale(Burstiness) e e On s’int´resse maintenant aux lois de probabilit´s sur les fr´quences: e e e Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson e e s’ajuste mal aux donn´es. e Une explication possible: le comportement en rafale des mots, ou cr´pitement (burstiness). D´crit le fait que les mots, dans un e e document, tendent ` apparaˆ a ıtre par paquets Une fois que l’on a observ´ une occurrence d’un mot dans un e document, il est bien plus probable d’observer de nouvelles occurrences de ce mot 1 Poisson Mixtures S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 8 / 37
  • 13.
    Ph´nom`ne de Rafale e e Definition (Cas discret ECIR’08) Une distribution discr`te P est en rafale ou cr´pite ssi la suite: e e g (n) = P(X ≥ n + 1|X ≥ n) est une suite strictement croissante S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 9 / 37
  • 14.
    Ph´nom`ne de Rafale e e Definition (Cas discret ECIR’08) Une distribution discr`te P est en rafale ou cr´pite ssi la suite: e e g (n) = P(X ≥ n + 1|X ≥ n) est une suite strictement croissante Definition (Cas g´n´ral) e e Une distribution continue P est en rafale ou cr´pite ssi ∀ > 0 la fonction e g: g (x) = P(X ≥ x + |X ≥ x) est une fonction strictement croissante en x. S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 9 / 37
  • 15.
    Distribution En rafale Poisson Non Geometrique Neutre N´gative Binomiale e Oui si r < 1 Beta N´gative Binomiale e Oui Pareto Oui Log-Logistique Oui S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 10 / 37
  • 16.
    Mod`les d’Information &Contraintes heuristiques: e Mod`les d´finis par: e e Fonction h q d RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1) w ∈q∩d d tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante e e e e e en y . S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 11 / 37
  • 17.
    Mod`les d’Information &Contraintes heuristiques: e Mod`les d´finis par: e e Fonction h q d RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1) w ∈q∩d d tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante e e e e e en y . Condition 1 (h croissante) Direct Condition 3 (p´nalise longs documents) Direct. e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 11 / 37
  • 18.
    Mod`les d’Information &Contraintes heuristiques: e Mod`les d´finis par: e e Fonction h q d RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1) w ∈q∩d d tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante e e e e e en y . Condition 1 (h croissante) Direct Condition 3 (p´nalise longs documents) Direct. e Condition 2 (h concave) Th´or`me e e Si la distribution P est en rafale, alors le mod`le d’information d´fini avec e e P est concave S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 11 / 37
  • 19.
    Mod`les d’Information &Contraintes heuristiques: e Soit P une distribution de classe C 2 . Une condition n´cessaire pour que P e soit en rafale est : ∂ 2 log(P(X ≥ x)) >0 ∂x 2 Or ∂ 2 log(P(X ≥ x)) Concavit´ ⇐⇒ e >0 ∂x 2 Condition 4 (effet IDF) et 2 Conditions d’ajustement suppl´mentaires e d´pendent du choix de la distribution P e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 12 / 37
  • 20.
    Les mod`les log-logistiqueet loi de puissance liss´e e e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 13 / 37
  • 21.
    La distribution log-logistique On consid`re ici une loi log-logistique contrainte: e r P(X > x|r ) = (r m´diane) e (x + r ) On se restreint ` cette forme ` cause de relations avec d’autres a a distributions (N´gative Binomiale, Beta N´gative Binomiale) e e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 14 / 37
  • 22.
    log P(X >x) Poisson et Log-Logistique r=0.001 Poisson r=0.001 0 r=0.01 Poisson r=0.01 r=0.1 Poisson r=0.1 −2 −4 log P(X > x) −6 −8 −10 0 5 10 15 x S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 15 / 37
  • 23.
    Ajustement aux donn´es e Pour v´rifier l’ajustement aux donn´es, on a effectu´ un test du χ2 sous e e e ces deux hypoth`ses: e ˆ Poisson: λw = Fw N Fw Log-Logistique: rˆ = w N ⇒ La statistique du χ2 est bien meilleure pour la log-logistique (confirme des travaux pr´cedents) e La loi log-logistique est un ”bon” mod`le de fr´quences sur le corpus e e (meilleur que Poisson, G´om´trique, Binomial et 2-Poisson). e e Est-ce un bon mod`le de RI ? e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 16 / 37
  • 24.
    Mod`le Log-Logistique pourla RI (LGD) e Le mod`le LGD est d´fini par e e d d m 1 Normalisation: tw = xw log(1 + c yd ) (N2 DFR) 2 e d Loi de fr´quences: Les tw sont distribu´s par une loi log-logistique de e Nw param`tre rw = N e 3 q Nw d Nw RSV (q, d) = xw log( + tw ) − log( ) N N w ∈q∩d Respecte toutes les conditions quels que soient les param`tres. e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 17 / 37
  • 25.
    Loi de PuissanceLiss´e (Smoothed Power Law SPL) e On appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre e e 0<λ<1: x λ x+1 − λ P(X > x|λ) = 1−λ S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 18 / 37
  • 26.
    Loi de PuissanceLiss´e (Smoothed Power Law SPL) e On appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre e e 0<λ<1: x λ x+1 − λ P(X > x|λ) = 1−λ Mod`le de RI: e d d m 1 Normalisation: tw = xw log(1 + c yd ) (N2 DFR) 2 e d Loi de fr´quences: Les tw sont distribu´s par une loi de puissance e Nw liss´e de param`tre rw = N e e Respecte aussi toutes les conditions S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 18 / 37
  • 27.
    Loi de PuissanceLiss´e e lambda = 0.005 0 loglogistic spl −2 log P(X>x) −4 −6 −8 0 5 10 15 x S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 19 / 37
  • 28.
    Caract´risation des mod`lesd’information e e 1 Normalisation de fr´quences v´rifie: e e d ∂tw d ∂tw ∂ 2 xwd d > 0; < 0; ≥0 ∂xw ∂yd ∂(tw )2 d 2 Loi de Probabilit´ continue et en rafale e 3 Fonction d’Ordonnancement q d RSV (q, d) = −xw log Prob(Xw ≥ tw |λw ) w ∈q∩d 4 Param`tre sur la collection e F w Nw λw = or N N S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 20 / 37
  • 29.
    Relations avec d’autresmod`les e Relation avec les mod`les de langues: e 1 d d m Normalisation: tw = xw c yd (N1 DFR) Fw 2 rw = N et Loi Log-Logistique 3 Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer e e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 21 / 37
  • 30.
    Relations avec d’autresmod`les e Relation avec les mod`les de langues: e 1 d d m Normalisation: tw = xw c yd (N1 DFR) Fw 2 rw = N et Loi Log-Logistique 3 Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer e e Relation avec les mod`les DFR: e Les mod`les DFR sont d´finis de la mani`re suivante: e e e q d d RSV (q, d) = −xw Inf2 (tw ) log Prob1 (tw ) w ∈q∩d Probl`mes: e Loi discr`tes avec valeurs continues e 2 Notions d’informations non ”homog`nes” e ⇒ Nos mod`les reposent sur des lois continues et sur une seule notion e d’Information S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 21 / 37
  • 31.
    Exp´riences e Comparaison avec mod`les de langues, BM25, mod`les DFR e e Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes e 5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t e Corpus # Requˆte e ROBUST 250 CLEF03 60 GIRT 75 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 22 / 37
  • 32.
    Exp´riences e Comparaison avec mod`les de langues, BM25, mod`les DFR e e Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes e 5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t e Corpus # Requˆte e ROBUST 250 CLEF03 60 GIRT 75 Divis´ en apprentissage/test e Optimise MAP ou P10 sur une grille de valeurs: Par exemple: k1 ∈ {0.3, 0.5, 0.8, 1.0, 1.2, 1.5, 1.8, 2, 2.2, 2.5} (BM25) c ∈ {0.25, 0.5, 0.8, 1, 2, 3, 5, 8, 10} (LGD,DFR) µ ∈ {10, 50, 100, 200, 500, 800, 1000, 1500, 2000, 5000, 10000} (LM) S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 22 / 37
  • 33.
    Comparaison avec lelissage de Jelinek-Mercer Comparaison avec les mod`les de langues e Table: LM-Jelinek-Mercer vs Log-Logistique apr`s 10 divisions; en gras, les e meilleures performances ; ∗ d´note une diff´rence statistiquement significative e e MAP ROB-d ROB-t GIRT CLEF-d CLEF-t LM 26.0 20.7 40.7 49.2 36.5 LGD 27.2∗ 22.5∗ 43.1∗ 50.0∗ 37.5∗ P10 ROB-d ROB-t GIRT CLEF-d CLEF-t LM 43.8 35.5 67.5 33.0 26.2 LGD 46.0∗ 38.9∗ 69.4∗ 33.6∗ 26.6∗ S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 23 / 37
  • 34.
    Comparaison avec lelissage de Dirichlet Table: LMDirichlet vs Log-Logistique apr`s 10 divisions; en gras, les meilleures e performances ; ∗ d´note une diff´rence statistiquement significative e e MAP ROB-d ROB-t GIRT CLEF-d CLEF-t DIR 27.1 25.1 41.1 48.5 36.2 LGD 27.4∗ 25.0 42.1∗ 49.7∗ 36.8∗ P10 ROB-d ROB-t GIRT CLEF-d CLEF-t DIR 45.6 44.7∗ 68.6 33.8 28.4 LGD 46.2∗ 44.4 69.0 34.5∗ 28.6 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 24 / 37
  • 35.
    Comparaison avec BM25 BM25optimis´ seulement avec le param`tre k1 e e MAP ROB-d ROB-t GIRT CLEF-t CLEF-d BM25 26.8 22.4 39.8 34.9 46.8 LGD 28.2∗ 23.5∗ 41.4∗ 34.8 48.0 P10 ROB-d ROB-t GIRT CLEF-t CLEF-d BM25 45.9 42.6 62.6 28.5 33.7 LGD 46.5 44.3∗ 66.6∗ 28.7 34.4 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 25 / 37
  • 36.
    Comparaison avec lesmod`les DFR e Table: INL2 et PL2 versus Log-Logistique apr`s 10 divisions; en gras, les e meilleures performances; ∗ d´note une diff´rence statistiquement significative e e MAP ROB-d ROB-t GIRT CLEF-d CLEF-t INL2 27.7 24.8 42.5 47.7 37.5 LGD 28.5∗ 25.0∗ 43.1∗ 48.0 37.4 P10 ROB-d ROB-t GIRT CLEF-d CLEF-t INL2 47.7∗ 43.3 67.0 33.4 27.3 LGD 47.0 43.5 69.4∗ 33.3 27.2 MAP ROB-d ROB-t GIRT CLEF-t CLEF-d LGD 27.3∗ 24.7 40.5 36.2 47.5 PL2 26.2 24.8 40.6 36.0 47.2 P10 ROB-d ROB-t GIRT CLEF-t CLEF-d LGD 46.6 43.2 66.7 28.5 33.7 PL2 46.4 44.1∗ 68.2∗ 28.7 33.1 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 26 / 37
  • 37.
    Comparaison SPL avecle mod`le de langue Dirichlet e Table: SPL versus LM-Dirichlet after 10 splits; bold indicates significant difference MAP ROB-d ROB-t GIR T3-t CL-t CL-d DIR 26.7 25.0 40.9 27.1 36.2 50.2 SPL 25.6 24.9 42.1 26.8 36.4 46.9 P10 ROB-d ROB-t GIR T3-t CL-t CL-d DIR 45.2 43.8 68.2 52.8 27.3 32.8 SPL 46.6 44.7 70.8 55.3 27.1 32.9 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 27 / 37
  • 38.
    Comparaison SPL avecles mod`les InL2 et PL2 (DFR) e Table: SPL versus DFR models after 10 splits; bold indicates significant difference MAP ROB-d ROB-t GIR T3-t CL-t CL-d INL 26.9 24.3 40.4 24.8 35.5 49.4 SPL 26.6 24.6 40.7 25.4 34.6 48.1 P10 ROB-d ROB-t GIR T3-t CL-t CL-d INL 47.6 42.8 63.4 52.5 28.8 33.8 SPL 47.8 44.1 68.0 53.9 28.7 33.6 MAP ROB-d ROB-t GIR T3-t CL-t CL-d SPL 26.3 25.2 42.7 25.3 37.4 44.1 PL2 26.3 25.2 42.8 25.8 37.3 45.7 P10 ROB-d ROB-t GIR T3-t CL-t CL-d SPL 47.0 45.2 69.8 55.4 25.9 32.9 PL2 46.0 45.2 69.3 54.8 26.2 32.7 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 28 / 37
  • 39.
    Extension au PRF Moyennede l’information sur les premiers documents retourn´s: e 1 d Info(w ) = − log(P(Xw > tw ; λw )) n d∈R Mise ` jour de la requˆte: (similaire au mod`le Bo2) a e e q q2 xw Info(w ) xw = q +β maxw xw maxw Info(w ) Le mod`le de PRF et le mod`le de RI sont les mˆmes ! e e e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 29 / 37
  • 40.
    ∗ Table: MAP, d´note une diff´rence statistiquement significative avec LM et Bo2 e e Model n TC ROB-t GIRT TREC3-t CLEF-t LM+MIX 5 5 27.5 44.4 30.7 36.6 INL+Bo2 5 5 26.5 42.0 30.6 37.6 LGD 5 5 28.3∗ 44.3 32.9∗ 37.6 LM+MIX 5 10 28.3 45.7∗ 33.6 37.4 INL+Bo2 5 10 27.5 42.7 32.6 37.5 LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗ LM+MIX 10 10 28.4 45.5 31.8 37.6 INL+Bo2 10 10 27.2 43.0 32.3 37.4 LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9 LM+MIX 10 20 29.0 46.2 33.7 38.2 INL+Bo2 10 20 27.7 43.5 33.8 37.7 LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6 LM+MIX 20 20 28.6 47.9 32.9 37.8 INL+Bo2 20 20 27.4 44.3 33.5 36.8 LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗ S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 30 / 37
  • 41.
    Table: Mean averageprecision of PRF experiments; bold indicates best performance, ∗ significant difference over LM and Bo2 models Model N TC ROB-t GIR T3-t CL-t LGD 5 5 28.3∗ 44.3 32.9∗ 37.6 SPL 5 5 28.9∗ 45.6∗ 32.9∗ 39.0∗ LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗ SPL 5 10 29.6∗ 47.0∗ 34.6∗ 39.5∗ LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9 SPL 10 10 30.0∗ 48.9∗ 33.8∗ 39.1∗ LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6 SPL 10 20 29.9∗ 50.2∗ 34.3 39.7∗ LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗ SPL 20 20 28.8 50.3∗ 33.9 39.0∗ S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 31 / 37
  • 42.
    Conclusion Caract´risation analytique des contraintes heuristiques e Ph´nom`ne de rafale pour les lois continues e e Une nouvelle famille de mod`les de RI e ”En Rafale” ⇒ Mod`le concave e Extension au PRF Les mod`les log-logistique et loi de puissance liss´e e e LGD contient un mod`le de langue e LGD, SPL ≥ mod`le de langues e LGD,SPL ≈ DFR plus simple que les mod`les DFR e les meilleures performances en PRF Questions ? S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 32 / 37
  • 43.
    La distribution log-logistique Church et al. 2 ont propos´ la distribution N´gative Binomiale e e (m´lange infini de Poisson) pour mod´liser les fr´quences. e e e ⇒ ”meilleur” mod`le que 2-Poisson e Nous avons propos´ pr´cedemment la loi Beta-Negative Binomiale e e (BNB): BNB(x|r ) = Beta(θ|1, 1)Negbin(x|θ, r ) On consid`re ici une loi log-logistique contrainte: e r P(X > x|r ) = (r m´diane) e (x + r ) Cette log-logistique contrainte peut ˆtre vue comme une version e continue d’une Beta-N´gative Binomiale e 2 Poisson Mixtures S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 33 / 37
  • 44.
    Relation avec lesMod`les DFR e Les mod`les DFR sont d´finis de la mani`re suivante: e e e q d d q d d RSV (q, d) = xw Inf2 (tw )Inf1 (tw ) = −xw Inf2 (tw ) log Prob1 (tw ) w ∈q∩d w ∈q∩d On peut montrer que : Inf2 rend les mod`les DFR concave (condition 2) e Sans Inf2 , les mod`les DFR obtiennent de mauvaises performances e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 34 / 37
  • 45.
    Experimental Fit Chi Squaretest on Robust collection, with terms appearing with document frequency ≥ 100; Frequency range divided into three intervals: [0, 3[, [3, 10[ and [10, 100[. Hypothesis ˆ Poisson: λw = Fw N ˆ Log-Logistic: λw = Fw N S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 35 / 37
  • 46.
    Chi Square Statistics S.ClinchantE.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 36 / 37
  • 47.
    Comparaison des mod`les e r = 0.005 8 LGD 2 4 6 INL Weight SPL PL 0 0 5 10 15 x r = 5e−04 LGD 8 INL Weight SPL 4 PL 0 0 5 10 15 x S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 37 / 37