Upload
Download free for 30 days
Login
Submit search
EMNLP 2015 yomikai
Download as PPTX, PDF
3 likes
12,777 views
Yo Ehara
A Graph-based Readability Assessment Method using Word Coupling
Engineering
Read more
1 of 16
Download now
Downloaded 13 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
More Related Content
PDF
読解支援@2015 07-13
sekizawayuuki
PDF
Learning Better Embeddings for Rare Words Using Distributional Representations
Takanori Nakai
PDF
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
Shuyo Nakatani
PPTX
Emnlp読み会資料
Jiro Nishitoba
PDF
Humor Recognition and Humor Anchor Extraction
裕樹 奥田
PDF
Memory Networks (End-to-End Memory Networks の Chainer 実装)
Shuyo Nakatani
PDF
無限関係モデル (続・わかりやすいパターン認識 13章)
Shuyo Nakatani
PDF
強化学習その1
nishio
読解支援@2015 07-13
sekizawayuuki
Learning Better Embeddings for Rare Words Using Distributional Representations
Takanori Nakai
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
Shuyo Nakatani
Emnlp読み会資料
Jiro Nishitoba
Humor Recognition and Humor Anchor Extraction
裕樹 奥田
Memory Networks (End-to-End Memory Networks の Chainer 実装)
Shuyo Nakatani
無限関係モデル (続・わかりやすいパターン認識 13章)
Shuyo Nakatani
強化学習その1
nishio
More from Yo Ehara
(11)
PDF
Semi-supervised Active Learning Survey
Yo Ehara
PPTX
Tokyo nlp #8 label propagation
Yo Ehara
PDF
Acl yomikai, 1016, 20110903
Yo Ehara
PDF
Icml yomikai 07_16
Yo Ehara
PPTX
Gengo Africa
Yo Ehara
PDF
Nonlinear programming輪講スライド with 最適化法
Yo Ehara
PDF
Nips yomikai 1226
Yo Ehara
PDF
Tsukuba.R #7 5/9
Yo Ehara
PPTX
Prml 11.1.4 重点サンプリング
Yo Ehara
PPTX
PRML10.6 変分ロジスティック回帰
Yo Ehara
PDF
SocialDict @ 第3回SBM研究会
Yo Ehara
Semi-supervised Active Learning Survey
Yo Ehara
Tokyo nlp #8 label propagation
Yo Ehara
Acl yomikai, 1016, 20110903
Yo Ehara
Icml yomikai 07_16
Yo Ehara
Gengo Africa
Yo Ehara
Nonlinear programming輪講スライド with 最適化法
Yo Ehara
Nips yomikai 1226
Yo Ehara
Tsukuba.R #7 5/9
Yo Ehara
Prml 11.1.4 重点サンプリング
Yo Ehara
PRML10.6 変分ロジスティック回帰
Yo Ehara
SocialDict @ 第3回SBM研究会
Yo Ehara
Ad
EMNLP 2015 yomikai
1.
EMNLP読み会 Graph-based Readability Assessment Method
using Word Coupling 2015/10/24 @niam 1 Zhiwei Jiang, Gang Sun, Qing Gu∗, Tao Bai, Daoxu Chen
2.
自己紹介を兼ねて • 専門:自然言語処理,言語教育,NLP応用 数百語ぐらいの単語テストの結果を用いて,学習 者が知っている単語を当てるタスク 機械学習的な手法:ラベル伝搬法 sklearn.semi_supervised.LabelPropagation/LabelS preading関数あたり. • 去年のEMNLP
2014@カタールに,ラベル伝 搬+言語教育ネタで通しました. • この論文も,ラベル伝搬+言語教育なので 読みます. 2
3.
タイトルを見る Graph-based Readability Assessment
Method using Word Coupling • Graph-based : Gaussian Random Field (GRF, ICML 2003), scikit-learnでいうところの LabelPropagation関数使ったよ • Readability Assessment:昔からあるタスク. 例えば,与えられた英文テキストが,英検 何級レベルですか?というような識別問題 • Word Coupling:これが新しく,著者らが提 案している,単語間関係を考慮して識別す るための前処理 3
4.
ラベル伝搬法 1/2 4 INPUT: 枝に重みが付いた グラフ ノードの一部への ラベル 枝の重みに従って ラベルを伝搬 OUTPUT: 全ノードのラベル 大敵:ハブノード [Zhu+, ICML
2003] Hubノードを省く話は日本では, Ikumi Suzukiで検索すると出てくる
5.
ラベル伝搬法 2/2 簡単な半教師あり学習法.重要な手法は2つ • Gaussian
Random Field – sklearnとこの論文ではLabel Propagationという名前 Zhu+, Technical Report CMU-CALD, 2002 Zhu+, ICML 2003←GRF.ICML 2013 classic paper prize – 出力を確率値とみなせる(全ノードの値を足すと1) • Learning with Local and Global Consistency – Zhou+, NIPS 2004 – 言語処理では,Komachi+, EMNLP 2008等で使用 – 出力は確率値とみなせない 5
6.
この研究の全体像 6 1.単語-文書関係 (TF-IDF) 2.単語間の難易度の差 3.単語-文書関係 各文書に対して, 単語次元の 素性ベクトルが できる 4.グラフを 構築
7.
1. 単語-文書関係 7 普通のtf-idf行列. f(t,d): 語tが文書dに出てきた頻度
8.
2. 単語間の難易度の差 8 語tに関してi番目の要素が以下であるような確率ベクトルを作る 語tが現れる文の数ntのうち,l(s)=i(難しさがi程度)であるものの比率 l(s):文sに対して,この値が大きいほど難しいと みなせるような素性の値.非負の整数値に丸め.(後述) pは確率分布なので,下記の式でJensen-Shanon Divergence を計算.(ただし,JSDの名前は出てこない) 2単語間の関係を,下記のように定義
9.
3. 単語間の難易度の差を考慮した単 語-文書行列 9 単語-文書行列 単語-文書行列 TF-IDF 単語間 の難易度 の差を表す行列
10.
4. グラフの構築 10 単語-文書行列 単語-文書行列 TF-IDF 単語間 の難易度の差 を表す行列 N(di):diのk近傍 M:単語-文書行列. 各文書に対して 単語次元の素性ベクトル
11.
実際に,どのようなものを文sの難易 度としているか 11 語tを含む文sの難易度分布 を通じて,語の難易度差に変換
12.
グラフのマージ 12 *をsurface, lexical, syntacticと変えることで, 3種類のグラフが出来る ラベル伝搬法はハブ(多くのノードと繋がるノード) があると性能が悪化する→ハブがなるべく出来ないようにマージ 1.ノードvに対し,3種のどのグラフでも k近傍になっているノード集合を, vと繋ぐ.Nc(v)=S(v)とする 2. |S(v)|<kの時,v’∈Nsur(v)∪Nlex(v)∪Nsyn(v)S(v)のうち, Nc(v)との共通k近傍が最も小さいv’から,Nc(v)に足していく (|Nc(v)|=kになるまで) S(v)=
13.
結果 1/3 使用したデータセット 中国語と英語の2言語で実験(Readability Assessment の研究ではちゃんとやっている方) CPT:
Chinese Primary Textbook 中国語文書について6段階の難易度を人手でつけたもの ENCT: English New Concept Textbook 英語文書について4段階の難易度を人手でつけたもの 13
14.
結果 2/3 14 提案手法
15.
結果 3/3 15 ちゃんと,単語間難易度の差を考慮して 分類することには意味があるよ
16.
まとめ • word couplingと言っているが,要するに,単語間 の難易度の差(近さ)を考慮した,Readability Assessmentの手法を提案した –
これまでのReadability Assessment:教師あり学習&単 語間難易度の差などは未考慮. – 提案:半教師あり+単語間の難易度の差を考慮. • 単純に教師あり→半教師ありにしたら良いという 話でもない事は実験からも分かる. • ラベル伝搬性能を落とすハブが出来ないように考 慮しつつ,surface, lexical, syntacticな情報をすべ て入れて,ようやく,性能を上げている印象. 16
Download