EMNLP読み会
Graph-based Readability
Assessment Method using Word
Coupling
2015/10/24
@niam
1
Zhiwei Jiang,
Gang Sun,
Qing Gu∗, Tao Bai, Daoxu Chen
自己紹介を兼ねて
• 専門:自然言語処理,言語教育,NLP応用
数百語ぐらいの単語テストの結果を用いて,学習
者が知っている単語を当てるタスク
機械学習的な手法:ラベル伝搬法
sklearn.semi_supervised.LabelPropagation/LabelS
preading関数あたり.
• 去年のEMNLP 2014@カタールに,ラベル伝
搬+言語教育ネタで通しました.
• この論文も,ラベル伝搬+言語教育なので
読みます.
2
タイトルを見る
Graph-based Readability Assessment Method
using Word Coupling
• Graph-based : Gaussian Random Field (GRF,
ICML 2003), scikit-learnでいうところの
LabelPropagation関数使ったよ
• Readability Assessment:昔からあるタスク.
例えば,与えられた英文テキストが,英検
何級レベルですか?というような識別問題
• Word Coupling:これが新しく,著者らが提
案している,単語間関係を考慮して識別す
るための前処理 3
ラベル伝搬法 1/2
4
INPUT:
枝に重みが付いた
グラフ
ノードの一部への
ラベル
枝の重みに従って
ラベルを伝搬
OUTPUT:
全ノードのラベル
大敵:ハブノード
[Zhu+, ICML 2003]
Hubノードを省く話は日本では,
Ikumi Suzukiで検索すると出てくる
ラベル伝搬法 2/2
簡単な半教師あり学習法.重要な手法は2つ
• Gaussian Random Field
– sklearnとこの論文ではLabel Propagationという名前
Zhu+, Technical Report CMU-CALD, 2002
Zhu+, ICML 2003←GRF.ICML 2013 classic paper prize
– 出力を確率値とみなせる(全ノードの値を足すと1)
• Learning with Local and Global Consistency
– Zhou+, NIPS 2004
– 言語処理では,Komachi+, EMNLP 2008等で使用
– 出力は確率値とみなせない
5
この研究の全体像
6
1.単語-文書関係
(TF-IDF)
2.単語間の難易度の差
3.単語-文書関係
各文書に対して,
単語次元の
素性ベクトルが
できる
4.グラフを
構築
1. 単語-文書関係
7
普通のtf-idf行列.
f(t,d): 語tが文書dに出てきた頻度
2. 単語間の難易度の差
8
語tに関してi番目の要素が以下であるような確率ベクトルを作る
語tが現れる文の数ntのうち,l(s)=i(難しさがi程度)であるものの比率
l(s):文sに対して,この値が大きいほど難しいと
みなせるような素性の値.非負の整数値に丸め.(後述)
pは確率分布なので,下記の式でJensen-Shanon Divergence
を計算.(ただし,JSDの名前は出てこない)
2単語間の関係を,下記のように定義
3. 単語間の難易度の差を考慮した単
語-文書行列
9
単語-文書行列
単語-文書行列
TF-IDF
単語間
の難易度
の差を表す行列
4. グラフの構築
10
単語-文書行列
単語-文書行列
TF-IDF
単語間
の難易度の差
を表す行列
N(di):diのk近傍
M:単語-文書行列.
各文書に対して
単語次元の素性ベクトル
実際に,どのようなものを文sの難易
度としているか
11
語tを含む文sの難易度分布
を通じて,語の難易度差に変換
グラフのマージ
12
*をsurface, lexical,
syntacticと変えることで,
3種類のグラフが出来る
ラベル伝搬法はハブ(多くのノードと繋がるノード)
があると性能が悪化する→ハブがなるべく出来ないようにマージ
1.ノードvに対し,3種のどのグラフでも
k近傍になっているノード集合を,
vと繋ぐ.Nc(v)=S(v)とする
2. |S(v)|<kの時,v’∈Nsur(v)∪Nlex(v)∪Nsyn(v)S(v)のうち,
Nc(v)との共通k近傍が最も小さいv’から,Nc(v)に足していく
(|Nc(v)|=kになるまで)
S(v)=
結果 1/3
使用したデータセット
中国語と英語の2言語で実験(Readability Assessment
の研究ではちゃんとやっている方)
CPT: Chinese Primary Textbook
中国語文書について6段階の難易度を人手でつけたもの
ENCT: English New Concept Textbook
英語文書について4段階の難易度を人手でつけたもの
13
結果 2/3
14
提案手法
結果 3/3
15
ちゃんと,単語間難易度の差を考慮して
分類することには意味があるよ
まとめ
• word couplingと言っているが,要するに,単語間
の難易度の差(近さ)を考慮した,Readability
Assessmentの手法を提案した
– これまでのReadability Assessment:教師あり学習&単
語間難易度の差などは未考慮.
– 提案:半教師あり+単語間の難易度の差を考慮.
• 単純に教師あり→半教師ありにしたら良いという
話でもない事は実験からも分かる.
• ラベル伝搬性能を落とすハブが出来ないように考
慮しつつ,surface, lexical, syntacticな情報をすべ
て入れて,ようやく,性能を上げている印象.
16

More Related Content

PDF
読解支援@2015 07-13
PDF
Learning Better Embeddings for Rare Words Using Distributional Representations
PDF
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
PPTX
Emnlp読み会資料
PDF
Humor Recognition and Humor Anchor Extraction
PDF
Memory Networks (End-to-End Memory Networks の Chainer 実装)
PDF
無限関係モデル (続・わかりやすいパターン認識 13章)
PDF
強化学習その1
読解支援@2015 07-13
Learning Better Embeddings for Rare Words Using Distributional Representations
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
Emnlp読み会資料
Humor Recognition and Humor Anchor Extraction
Memory Networks (End-to-End Memory Networks の Chainer 実装)
無限関係モデル (続・わかりやすいパターン認識 13章)
強化学習その1

More from Yo Ehara (11)

PDF
Semi-supervised Active Learning Survey
PPTX
Tokyo nlp #8 label propagation
PDF
Acl yomikai, 1016, 20110903
PDF
Icml yomikai 07_16
PPTX
Gengo Africa
PDF
Nonlinear programming輪講スライド with 最適化法
PDF
Nips yomikai 1226
PDF
Tsukuba.R #7 5/9
PPTX
Prml 11.1.4 重点サンプリング
PPTX
PRML10.6 変分ロジスティック回帰
PDF
SocialDict @ 第3回SBM研究会
Semi-supervised Active Learning Survey
Tokyo nlp #8 label propagation
Acl yomikai, 1016, 20110903
Icml yomikai 07_16
Gengo Africa
Nonlinear programming輪講スライド with 最適化法
Nips yomikai 1226
Tsukuba.R #7 5/9
Prml 11.1.4 重点サンプリング
PRML10.6 変分ロジスティック回帰
SocialDict @ 第3回SBM研究会
Ad

EMNLP 2015 yomikai