Modèles d\'Information CORIA\'2010

Mod`les de RI fond´s sur l’information
e e

St´phane Clinchant
e 1,2 Eric Gaussier 2

1 Xerox Research Centre Europe
2 Laboratoire d’Informatique de Grenoble
Univ. Grenoble 1

18 Mars 2010

S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 1 / 37

Contenu Informatif

Utiliser l’information de Shannon pour pond´rer les mots dans les
e
documents

P(X)
−log P(X)

Inf(x) = − log P(x|ΘC ) = Contenu Informatif
Ecart au comportement moyen

e e 18 Mars 2010 2 / 37

Contenu Informatif

Utiliser l’information de Shannon pour pond´rer les mots dans les
e
documents

P(X)
−log P(X)

Inf(x) = − log P(x|ΘC ) = Contenu Informatif
Ecart au comportement moyen
Observation par Harter (70):
Les mots ”Non-Fonctionnels” s’´cartent d’une distribution de Poisson.
e

e e 18 Mars 2010 2 / 37

Mod`les fond´s sur l’information
e e

Id´e Principale:
e
1 Les fr´quences discr`tes des termes (x) sont renormalis´es en
e e e
valeurs continues (t(x)), du fait de la variabilit´ des longueurs de
e
documents.
2 Pour chaque terme w , on suppose que les valeurs t(x) suivent une
distribution P de param`tre λw sur le corpus.
e
3 Requˆtes et documents sont compar´s avec une mesure de surprise,
e e
une moyenne d’information de la forme:
q d
RSV (q, d) = −xw log Prob(Xw ≥ t(xw )|λw )
w ∈q∩d

e e 18 Mars 2010 3 / 37

Plan

1 Propri`t´s thóriques des mod`les
ee e e
Contraintes Heuristiques des mod`les de R.I
e
Phńom`ne de Rafale
e e
2 Exemples de Mod`les
e
Le mod`le log-logistique
e
Loi de Puissance lissé
e
3 Validation Experimentale
4 Extension au PRF

e e 18 Mars 2010 4 / 37

Contraintes Heuristiques (1)

Une fonction d’ordonnancement en RI prend la forme suivante:
q d
RSV (q, d) = f (xw )h(xw , yd , zw , θ)
w ∈q∩d

q d
xw fr´quence du mot dans la requete, xw dans le document
e
yd Longueur du document d
zw = Fw ou zw = Nw
θ param`tre du mod`le de RI.
e e
Fw Frequence de w dans le corpus : Fw = d xw d
d
Nw Fr´quence Documentaire de w : Nw = d I (xw > 0)
e
N Nombre de documents dans la collection
⇒ Etude des propri`t´s de h
ee

e e 18 Mars 2010 5 / 37


Hypoth`ses:
e
Condition 1: Les documents avec plus d’occurences d’un terme de
la requˆte devraient avoir un score plus grand que ceux qui en ont
e
moins (Luhn)

∂h(x, y , z, θ)
∀(y , z, θ), > 0 (h est croissante en x)
∂x

e e 18 Mars 2010 6 / 37


Hypoth`ses:
e
Condition 1: Les documents avec plus d’occurences d’un terme de
la requˆte devraient avoir un score plus grand que ceux qui en ont
e
moins (Luhn)

∂h(x, y , z, θ)
∀(y , z, θ), > 0 (h est croissante en x)
∂x

Condition 2: Cependant, la diﬀ´rence de score devrait ˆtre plus
e e
petite pour de grandes fr´quences. Ex: 2→4, 50→ 52
e

∂ 2 h(x, y , z, θ)
∀(y , z, θ), < 0 (h est concave)
∂x 2

e e 18 Mars 2010 6 / 37


Hypoth`ses:
e
Condition 3: On devrait pńaliser les longs documents compar´s
e e
aux documents plus courts, car les longs documents sont suceptibles
de couvrir diff´rents sujets
e

∂h(x, y , z, θ)
∀(x, z, θ), < 0 (h dćroissante en y)
e
∂y

e e 18 Mars 2010 7 / 37


Hypoth`ses:
e
Condition 3: On devrait pńaliser les longs documents compar´s
e e
aux documents plus courts, car les longs documents sont suceptibles
de couvrir diff´rents sujets
e

∂h(x, y , z, θ)
∀(x, z, θ), < 0 (h dćroissante en y)
e
∂y

Condition 4: Enfin, il est important de diminuer l’importance des
mots apparaissant dans beaucoup de documents (IDF)

∂h(x, y , z, θ)
∀(x, y , θ), < 0 (effet IDF)
∂z
cf Fang et al, A Formal Study of Information Retrieval Heuristics, SIGIR’04

e e 18 Mars 2010 7 / 37

Phńom`ne de Rafale (Burstiness)
e e

On s’int´resse maintenant aux lois de probabilit´s sur les fr´quences:
e e e

Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson
e e
s’ajuste mal aux donnés.
e
Une explication possible: le comportement en rafale des mots, ou
cr´pitement (burstiness). Dćrit le fait que les mots, dans un
e e
document, tendent ` apparaˆ
a ıtre par paquets

1
Poisson Mixtures
e e 18 Mars 2010 8 / 37

Phńom`ne de Rafale (Burstiness)
e e

On s’int´resse maintenant aux lois de probabilit´s sur les fr´quences:
e e e

Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson
e e
s’ajuste mal aux donnés.
e
Une explication possible: le comportement en rafale des mots, ou
cr´pitement (burstiness). Dćrit le fait que les mots, dans un
e e
document, tendent ` apparaˆ
a ıtre par paquets
Une fois que l’on a observ´ une occurrence d’un mot dans un
e
document, il est bien plus probable d’observer de nouvelles
occurrences de ce mot

1
Poisson Mixtures
e e 18 Mars 2010 8 / 37

e e

Deﬁnition (Cas discret ECIR’08)
Une distribution discr`te P est en rafale ou cr´pite ssi la suite:
e e

g (n) = P(X ≥ n + 1|X ≥ n)

est une suite strictement croissante

e e 18 Mars 2010 9 / 37

e e

Definition (Cas discret ECIR’08)
Une distribution discr`te P est en rafale ou cr´pite ssi la suite:
e e

g (n) = P(X ≥ n + 1|X ≥ n)

est une suite strictement croissante

Definition (Cas gń´ral)
e e
Une distribution continue P est en rafale ou cr´pite ssi ∀ > 0 la fonction
e
g:
g (x) = P(X ≥ x + |X ≥ x)
est une fonction strictement croissante en x.

e e 18 Mars 2010 9 / 37

Distribution En rafale
Poisson Non
Geometrique Neutre
N´gative Binomiale
e Oui si r < 1
Beta N´gative Binomiale
e Oui
Pareto Oui
Log-Logistique Oui

e e 18 Mars 2010 10 / 37

Mod`les d’Information & Contraintes heuristiques:
e
Mod`les d´finis par:
e e
Fonction h
q d
RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1)
w ∈q∩d

d
tw fr´quences normalisés: gń´ralement croissante en x, dćroissante
e e e e e
en y .

e e 18 Mars 2010 11 / 37

e
e e
Fonction h
q d
w ∈q∩d

d
e e e e e
en y .

Condition 1 (h croissante) Direct
Condition 3 (p´nalise longs documents) Direct.
e

e e 18 Mars 2010 11 / 37

e
e e
Fonction h
q d
w ∈q∩d

d
e e e e e
en y .

Condition 1 (h croissante) Direct
Condition 3 (pńalise longs documents) Direct.
e
Condition 2 (h concave)

Thór`me
e e
Si la distribution P est en rafale, alors le mod`le d’information d´fini avec
e e
P est concave
e e 18 Mars 2010 11 / 37

e

Soit P une distribution de classe C 2 . Une condition n´cessaire pour que P
e
soit en rafale est :
∂ 2 log(P(X ≥ x))
>0
∂x 2
Or
∂ 2 log(P(X ≥ x))
Concavit´ ⇐⇒
e >0
∂x 2
Condition 4 (eﬀet IDF) et 2 Conditions d’ajustement suppl´mentaires
e
d´pendent du choix de la distribution P
e

e e 18 Mars 2010 12 / 37

Les mod`les log-logistique et loi de puissance liss´e
e e

e e 18 Mars 2010 13 / 37

La distribution log-logistique

On consid`re ici une loi log-logistique contrainte:
e
r
P(X > x|r ) = (r m´diane)
e
(x + r )

On se restreint ` cette forme ` cause de relations avec d’autres
a a
distributions (N´gative Binomiale, Beta N´gative Binomiale)
e e

e e 18 Mars 2010 14 / 37

log P(X > x) Poisson et Log-Logistique

r=0.001 Poisson r=0.001
0

r=0.01 Poisson r=0.01
r=0.1 Poisson r=0.1
−2
−4
log P(X > x)

−6
−8
−10

0 5 10 15

x

e e 18 Mars 2010 15 / 37

Ajustement aux donnés
e

Pour v´rifier l’ajustement aux donnés, on a effectu´ un test du χ2 sous
e e e
ces deux hypoth`ses:
e
ˆ
Poisson: λw = Fw N
Fw
Log-Logistique: rˆ =
w N

⇒ La statistique du χ2 est bien meilleure pour la log-logistique
(confirme des travaux prćedents)
e
La loi log-logistique est un ”bon” mod`le de fr´quences sur le corpus
e e
(meilleur que Poisson, Góm´trique, Binomial et 2-Poisson).
e e
Est-ce un bon mod`le de RI ?
e

e e 18 Mars 2010 16 / 37

Mod`le Log-Logistique pour la RI (LGD)
e

Le mod`le LGD est d´ﬁni par
e e
d d m
1 Normalisation: tw = xw log(1 + c yd ) (N2 DFR)
2 e d
Loi de fr´quences: Les tw sont distribu´s par une loi log-logistique de
e
Nw
param`tre rw = N
e
3

q Nw d Nw
RSV (q, d) = xw log( + tw ) − log( )
N N
w ∈q∩d

Respecte toutes les conditions quels que soient les param`tres.
e

e e 18 Mars 2010 17 / 37

Loi de Puissance Liss´e (Smoothed Power Law SPL)
e

On appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre
e e
0<λ<1: x
λ x+1 − λ
P(X > x|λ) =
1−λ

e e 18 Mars 2010 18 / 37

Loi de Puissance Lissé (Smoothed Power Law SPL)
e

On appelle loi de Puissance lissé la distribution sur [0, +∞[ de param`tre
e e
0<λ<1: x
λ x+1 − λ
P(X > x|λ) =
1−λ
Mod`le de RI:
e
d d m
1 Normalisation: tw = xw log(1 + c yd ) (N2 DFR)
2 e d
Loi de fr´quences: Les tw sont distribu´s par une loi de puissance
e
Nw
lissé de param`tre rw = N
e e
Respecte aussi toutes les conditions

e e 18 Mars 2010 18 / 37

Loi de Puissance Liss´e
e

lambda = 0.005
0

loglogistic
spl
−2
log P(X>x)
−4
−6
−8

0 5 10 15

x

e e 18 Mars 2010 19 / 37

Caract´risation des mod`les d’information
e e

1 Normalisation de fr´quences v´riﬁe:
e e
d
∂tw d
∂tw ∂ 2 xwd
d
> 0; < 0; ≥0
∂xw ∂yd ∂(tw )2
d

2 Loi de Probabilit´ continue et en rafale
e
3 Fonction d’Ordonnancement
q d
RSV (q, d) = −xw log Prob(Xw ≥ tw |λw )
w ∈q∩d

4 Param`tre sur la collection
e
F w Nw
λw = or
N N

e e 18 Mars 2010 20 / 37

Relations avec d’autres mod`les
e
Relation avec les mod`les de langues:
e
1 d d m
Normalisation: tw = xw c yd (N1 DFR)
Fw
2 rw = N et Loi Log-Logistique
3 Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer
e e

e e 18 Mars 2010 21 / 37

Relations avec d’autres mod`les
e
Relation avec les mod`les de langues:
e
1 d d m
Normalisation: tw = xw c yd (N1 DFR)
Fw
2 rw = N et Loi Log-Logistique
3 Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer
e e
Relation avec les mod`les DFR:
e
Les mod`les DFR sont d´ﬁnis de la mani`re suivante:
e e e
q d d
RSV (q, d) = −xw Inf2 (tw ) log Prob1 (tw )
w ∈q∩d

Probl`mes:
e
Loi discr`tes avec valeurs continues
e
2 Notions d’informations non ”homog`nes”
e
⇒ Nos mod`les reposent sur des lois continues et sur une seule notion
e
d’Information
e e 18 Mars 2010 21 / 37

Exp´riences
e
Comparaison avec mod`les de langues, BM25, mod`les DFR
e e
Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes
e
5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t
e

Corpus # Requˆte
e
ROBUST 250
CLEF03 60
GIRT 75

e e 18 Mars 2010 22 / 37

Exp´riences
e
Comparaison avec mod`les de langues, BM25, mod`les DFR
e e
Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes
e
5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t
e

Corpus # Requˆte
e
ROBUST 250
CLEF03 60
GIRT 75

Divis´ en apprentissage/test
e
Optimise MAP ou P10 sur une grille de valeurs:
Par exemple:
k1 ∈ {0.3, 0.5, 0.8, 1.0, 1.2, 1.5, 1.8, 2, 2.2, 2.5} (BM25)
c ∈ {0.25, 0.5, 0.8, 1, 2, 3, 5, 8, 10} (LGD,DFR)
µ ∈ {10, 50, 100, 200, 500, 800, 1000, 1500, 2000, 5000, 10000} (LM)
e e 18 Mars 2010 22 / 37

Comparaison avec le lissage de Jelinek-Mercer

Comparaison avec les mod`les de langues
e

Table: LM-Jelinek-Mercer vs Log-Logistique apr`s 10 divisions; en gras, les
e
meilleures performances ; ∗ dńote une diff´rence statistiquement significative
e e
MAP ROB-d ROB-t GIRT CLEF-d CLEF-t
LM 26.0 20.7 40.7 49.2 36.5
LGD 27.2∗ 22.5∗ 43.1∗ 50.0∗ 37.5∗
P10 ROB-d ROB-t GIRT CLEF-d CLEF-t
LM 43.8 35.5 67.5 33.0 26.2
LGD 46.0∗ 38.9∗ 69.4∗ 33.6∗ 26.6∗

e e 18 Mars 2010 23 / 37

Comparaison avec le lissage de Dirichlet

Table: LMDirichlet vs Log-Logistique apr`s 10 divisions; en gras, les meilleures
e
performances ; ∗ dńote une diff´rence statistiquement significative
e e
DIR 27.1 25.1 41.1 48.5 36.2
LGD 27.4∗ 25.0 42.1∗ 49.7∗ 36.8∗
DIR 45.6 44.7∗ 68.6 33.8 28.4
LGD 46.2∗ 44.4 69.0 34.5∗ 28.6

e e 18 Mars 2010 24 / 37

Comparaison avec BM25

BM25 optimis´ seulement avec le param`tre k1
e e

MAP ROB-d ROB-t GIRT CLEF-t CLEF-d
BM25 26.8 22.4 39.8 34.9 46.8
LGD 28.2∗ 23.5∗ 41.4∗ 34.8 48.0
P10 ROB-d ROB-t GIRT CLEF-t CLEF-d
BM25 45.9 42.6 62.6 28.5 33.7
LGD 46.5 44.3∗ 66.6∗ 28.7 34.4

e e 18 Mars 2010 25 / 37

Comparaison avec les mod`les DFR
e

Table: INL2 et PL2 versus Log-Logistique apr`s 10 divisions; en gras, les
e
meilleures performances; ∗ dńote une diff´rence statistiquement significative
e e
INL2 27.7 24.8 42.5 47.7 37.5
LGD 28.5∗ 25.0∗ 43.1∗ 48.0 37.4
INL2 47.7∗ 43.3 67.0 33.4 27.3
LGD 47.0 43.5 69.4∗ 33.3 27.2
MAP ROB-d ROB-t GIRT CLEF-t CLEF-d
LGD 27.3∗ 24.7 40.5 36.2 47.5
PL2 26.2 24.8 40.6 36.0 47.2
P10 ROB-d ROB-t GIRT CLEF-t CLEF-d
LGD 46.6 43.2 66.7 28.5 33.7
PL2 46.4 44.1∗ 68.2∗ 28.7 33.1

e e 18 Mars 2010 26 / 37

Comparaison SPL avec le mod`le de langue Dirichlet
e

Table: SPL versus LM-Dirichlet after 10 splits; bold indicates signiﬁcant diﬀerence
MAP ROB-d ROB-t GIR T3-t CL-t CL-d
DIR 26.7 25.0 40.9 27.1 36.2 50.2
SPL 25.6 24.9 42.1 26.8 36.4 46.9
P10 ROB-d ROB-t GIR T3-t CL-t CL-d
DIR 45.2 43.8 68.2 52.8 27.3 32.8
SPL 46.6 44.7 70.8 55.3 27.1 32.9

e e 18 Mars 2010 27 / 37

Comparaison SPL avec les mod`les InL2 et PL2 (DFR)
e

Table: SPL versus DFR models after 10 splits; bold indicates signiﬁcant diﬀerence
INL 26.9 24.3 40.4 24.8 35.5 49.4
SPL 26.6 24.6 40.7 25.4 34.6 48.1
INL 47.6 42.8 63.4 52.5 28.8 33.8
SPL 47.8 44.1 68.0 53.9 28.7 33.6
SPL 26.3 25.2 42.7 25.3 37.4 44.1
PL2 26.3 25.2 42.8 25.8 37.3 45.7
SPL 47.0 45.2 69.8 55.4 25.9 32.9
PL2 46.0 45.2 69.3 54.8 26.2 32.7

e e 18 Mars 2010 28 / 37

Extension au PRF

Moyenne de l’information sur les premiers documents retourn´s:
e
1 d
Info(w ) = − log(P(Xw > tw ; λw ))
n
d∈R

Mise ` jour de la requˆte: (similaire au mod`le Bo2)
a e e
q
q2 xw Info(w )
xw = q +β
maxw xw maxw Info(w )

Le mod`le de PRF et le mod`le de RI sont les mˆmes !
e e e

e e 18 Mars 2010 29 / 37

∗
Table: MAP, dńote une diff´rence statistiquement significative avec LM et Bo2
e e
Model n TC ROB-t GIRT TREC3-t CLEF-t
LM+MIX 5 5 27.5 44.4 30.7 36.6
INL+Bo2 5 5 26.5 42.0 30.6 37.6
LGD 5 5 28.3∗ 44.3 32.9∗ 37.6
LM+MIX 5 10 28.3 45.7∗ 33.6 37.4
INL+Bo2 5 10 27.5 42.7 32.6 37.5
LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗
LM+MIX 10 10 28.4 45.5 31.8 37.6
INL+Bo2 10 10 27.2 43.0 32.3 37.4
LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9
LM+MIX 10 20 29.0 46.2 33.7 38.2
INL+Bo2 10 20 27.7 43.5 33.8 37.7
LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6
LM+MIX 20 20 28.6 47.9 32.9 37.8
INL+Bo2 20 20 27.4 44.3 33.5 36.8
LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗
e e 18 Mars 2010 30 / 37

Table: Mean average precision of PRF experiments; bold indicates best
performance, ∗ signiﬁcant diﬀerence over LM and Bo2 models
Model N TC ROB-t GIR T3-t CL-t
LGD 5 5 28.3∗ 44.3 32.9∗ 37.6
SPL 5 5 28.9∗ 45.6∗ 32.9∗ 39.0∗
LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗
SPL 5 10 29.6∗ 47.0∗ 34.6∗ 39.5∗
LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9
SPL 10 10 30.0∗ 48.9∗ 33.8∗ 39.1∗
LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6
SPL 10 20 29.9∗ 50.2∗ 34.3 39.7∗
LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗
SPL 20 20 28.8 50.3∗ 33.9 39.0∗

e e 18 Mars 2010 31 / 37

Conclusion

Caract´risation analytique des contraintes heuristiques
e
Ph´nom`ne de rafale pour les lois continues
e e
Une nouvelle famille de mod`les de RI
e
”En Rafale” ⇒ Mod`le concave
e
Extension au PRF
Les mod`les log-logistique et loi de puissance liss´e
e e
LGD contient un mod`le de langue
e
LGD, SPL ≥ mod`le de langues
e
LGD,SPL ≈ DFR
plus simple que les mod`les DFR
e
les meilleures performances en PRF

Questions ?

e e 18 Mars 2010 32 / 37

La distribution log-logistique

Church et al. 2 ont propos´ la distribution N´gative Binomiale
e e
(m´lange inﬁni de Poisson) pour mod´liser les fr´quences.
e e e
⇒ ”meilleur” mod`le que 2-Poisson
e
Nous avons propos´ pr´cedemment la loi Beta-Negative Binomiale
e e
(BNB):
BNB(x|r ) = Beta(θ|1, 1)Negbin(x|θ, r )

On consid`re ici une loi log-logistique contrainte:
e
r
P(X > x|r ) = (r m´diane)
e
(x + r )

Cette log-logistique contrainte peut ˆtre vue comme une version
e
continue d’une Beta-N´gative Binomiale
e

2
Poisson Mixtures
e e 18 Mars 2010 33 / 37

Relation avec les Mod`les DFR
e

Les mod`les DFR sont d´ﬁnis de la mani`re suivante:
e e e
q d d q d d
RSV (q, d) = xw Inf2 (tw )Inf1 (tw ) = −xw Inf2 (tw ) log Prob1 (tw )
w ∈q∩d w ∈q∩d

On peut montrer que :
Inf2 rend les mod`les DFR concave (condition 2)
e
Sans Inf2 , les mod`les DFR obtiennent de mauvaises performances
e

e e 18 Mars 2010 34 / 37

Experimental Fit

Chi Square test on Robust collection, with terms appearing with document
frequency ≥ 100; Frequency range divided into three intervals: [0, 3[,
[3, 10[ and [10, 100[.
Hypothesis
ˆ
Poisson: λw = Fw
N
ˆ
Log-Logistic: λw = Fw
N

e e 18 Mars 2010 35 / 37

Chi Square Statistics

e e 18 Mars 2010 36 / 37

Comparaison des mod`les
e

r = 0.005
8
LGD
2 4 6

INL
Weight

SPL
PL
0

0 5 10 15
x

r = 5e−04

LGD
8

INL
Weight

SPL
4

PL
0

0 5 10 15
x

e e 18 Mars 2010 37 / 37

Modèles d\'Information CORIA\'2010

Contenu connexe

En vedette

Similaire à Modèles d\'Information CORIA\'2010

Modèles d\'Information CORIA\'2010