SlideShare a Scribd company logo
Teaching Machines to
Read and Comprehend
Karl Moritz Hermann, Tomas Kocisky,
Edward Grefenstette, Lasse Espeholt, Will Kay,
Mustafa Suleyman and Phil Blunsom
NIPS 2015
読む人: M1 山岸駿秀
Introduction
● Natural Language Reading Comprehension の論文
● 読解のタスクも教師ありで学習したいが、データがない
○ 文書数が数百とかだった
○ 教師なしでテンプレート等を使う研究が多かった
● 大規模データを作った
○ Document, query, answerの三つ組のセット
● ニューラルな手法でテストした
Supervised training data for reading comprehension
● p(a|c, q) を計算したい
○ a: answer, c: context document, q: query
● (document, query, answer) の3つ組のデータが欲しい
● CNNから93k、Daily Mailから220kの記事を収集
○ 各記事に箇条書きで要約がついている → query
○ この要約文は記事中にはない
○ 要約文は複数ある → 記事数 < query数
Entity replacement and permutation
● 共起を見たり、世界知識で解けたりするデータは困る
○ The hi-tech bra that helps you beat breast X.
○ Could Saccharin help beat X?
○ Can fish oils help fight prostate X?
○ Xに当てはまるのは?→ Cancer.
● 共参照解析を使って、同じ意味のフレーズを特殊トークンで置
き換える(Anonymize)
○ トークンは毎回変える
○ クエリだけ読めばわかる問題を減らす
[ML論文読み会資料] Teaching Machines to Read and Comprehend
できたデータ
Baseline
● Maximum frequency
○ 文書中で一番頻度の高いentityを返す
○ entityは1文書中に25程度ある
○ これが正解である確率は3割程度
● Exclusive frequency
○ {文書中のentity} - {query中のentity}の中のentityのうち、文書中で
一番頻度の高いentity
○ クエリに正解が含まれている可能性は低いという仮定
Frame-Semantic Model
● Frame-semantic parserから述語項の3つ組の情報を得る
○ entityをanonymizeする前のデータに対してparsing
● 以下のルールを試してxを得る(2つ以上取れたらランダムで選ぶ)
Word Distance Benchmark
● 共参照解析を使って、query中のXに該当しそうなentityを得
る
● Xと、候補のentityの文脈との距離を測る
○ 文脈 = entityとentityの近くの単語の距離を測り、近くの単語全ての
距離を足したもの
○ 近くの単語 = 8単語(おそらく前4・後4で8単語)
どうやって距離を測るのかは載っていなかった気がする……
Neural Network Models
● 以下の確率を求めたい
○ V: Vocabulary(文書・クエリ中の語彙 + entity masker + ‘X’)
○ gが実際のネットワークの出力
[ML論文読み会資料] Teaching Machines to Read and Comprehend
Model 1: The Deep LSTM Reader
● x: 入力される単語列
○ 1文書を1文とした単語列 + ‘|||’ + クエリ
● t: 時刻、k: layer
● g(d, q) = y(t = |d| + |q| + 1)
Model 2: The Attentive Reader
● 文書用のencoder d とクエリ用のencoder qを用意
○ 1-layer, bi-directional LSTM
● クエリを先に読み込んでおく →
● 以下の式でattentionを示すrを作る
● 最終的なgは以下のようになる
Model 3: The Impatient Reader
● クエリを先に読み込み、各時刻に保存
● |クエリ長|回だけattentionを計算する
○ 1ステップ前のattentionの結果を利用する
○ LSTM的なものは使わない(純粋なRNN)
● 最終的なgは以下のようになる
Empirical Evaluation
● はじめに作成したコーパスで実験
● RmsProp (momentum = 0.9) で学習
● その他のハイパーパラメータ
Result 1: Frame-semantic model
● あまり精度が出なかった
○ Pipeline処理 → Parserの
精度の低さが影響する
○ 言語によってParserの状況
が変わる
● 答えるのに必要な文数にス
ケールしない
Result 2: Word Distance Benchmark
● 思っていたよりよくできていた
● 3つ組の関係では取れないものが取れている?
○ Q: “Tom Hanks is friends with X’s manager, Scooter Brown.”
○ D: “ ... turns out he is good friends with Scooter Brown,
manager for Carly Rae Jepsen.”
○ 3つ組は動詞を含む → (he, is, friend) しか得られなかった?
○ Word Distance Benchmarkは、friendshipやmanagementの
関係も得られている?
● 文書とクエリの単語の表層の一致も多かったため、向いてい
た可能性
Result 3: Neural Models
● 多層LSTMは長距離の関係を捉
えられる
○ 2000語/文書の入力でさえ簡単に
解けた
● Attentionは効く
○ Uniform reader(m(t)の値が全て
同じ)は悪い
○ 同じ割合の和では意味がない
● AttentiveとImpatientに差はあ
まりない
[ML論文読み会資料] Teaching Machines to Read and Comprehend
Impatient Readerの過程 1/4(正解はent5)
Impatient Readerの過程 2/4(正解はent5)
Impatient Readerの過程 3/4(正解はent5)
Impatient Readerの過程 4/4(正解はent5)
Conclusion
● 自然言語理解のための大きなデータを作った
○ [Chen+ ACL2016]で、簡単なタスクであることが判明
○ 2015-2016の2年間ではよく使われていたが、2017年はあまり…
○ https://www.slideshare.net/takahirokubo7792/machine-comprehension
● 基礎的なニューラル手法を試した
○ アテンションは長い系列を見るためには必須
● 単語の知識や複数文書を使いたい
○ データサイズに対して計算の複雑さが線形比例してはいけない
● 大規模データがあればNNのモデルでよい結果を出せる

More Related Content

PDF
Nielsen chuang-5.3.1
GM3D
 
PPTX
Scalable Partial Least Squares Regression on Grammar-Compressed Data Matrices
Yasuo Tabei
 
PDF
数式 → コード,文書:OpenGL計算ライブラリ実装の経験から
Tokyo Tech (Tokyo Institute of Technology)
 
PPTX
Unityでlinqを使おう
Yuuki Takada
 
PDF
パターン認識02 k平均法ver2.0
sleipnir002
 
PPTX
東大生向けデータ解析講座 第4回 2018/01/05
西岡 賢一郎
 
PDF
深層学習フレームワーク Chainerとその進化
Yuya Unno
 
PDF
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
Takashi YAMAMURA
 
Nielsen chuang-5.3.1
GM3D
 
Scalable Partial Least Squares Regression on Grammar-Compressed Data Matrices
Yasuo Tabei
 
数式 → コード,文書:OpenGL計算ライブラリ実装の経験から
Tokyo Tech (Tokyo Institute of Technology)
 
Unityでlinqを使おう
Yuuki Takada
 
パターン認識02 k平均法ver2.0
sleipnir002
 
東大生向けデータ解析講座 第4回 2018/01/05
西岡 賢一郎
 
深層学習フレームワーク Chainerとその進化
Yuya Unno
 
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
Takashi YAMAMURA
 

What's hot (14)

PPTX
東大生向けデータ解析講座 第3回 2018/01/04
西岡 賢一郎
 
PDF
Rmq
oupc
 
PPTX
東大生向けデータ解析講座 第1回 2017/12/27
西岡 賢一郎
 
PDF
ゼロから作るDeepLearning 3.3~3.6章 輪読
KCS Keio Computer Society
 
PPTX
Real world lisp
秀俊 伊藤
 
PPTX
東大生向けデータ解析講座 第2回 2017/12/29
西岡 賢一郎
 
PDF
文字列処理
Ryunosuke Iwai
 
PPTX
解説:歩くNPCたち
理玖 川崎
 
PPTX
HTML5 Conference LT TensorFlow
isaac-otao
 
PPTX
My code
俊 中村
 
PPTX
Vanishing Component Analysis
Koji Matsuda
 
PDF
Sort
oupc
 
PPT
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
hnisiji
 
PPTX
14回
XMLProJ2014
 
東大生向けデータ解析講座 第3回 2018/01/04
西岡 賢一郎
 
Rmq
oupc
 
東大生向けデータ解析講座 第1回 2017/12/27
西岡 賢一郎
 
ゼロから作るDeepLearning 3.3~3.6章 輪読
KCS Keio Computer Society
 
Real world lisp
秀俊 伊藤
 
東大生向けデータ解析講座 第2回 2017/12/29
西岡 賢一郎
 
文字列処理
Ryunosuke Iwai
 
解説:歩くNPCたち
理玖 川崎
 
HTML5 Conference LT TensorFlow
isaac-otao
 
My code
俊 中村
 
Vanishing Component Analysis
Koji Matsuda
 
Sort
oupc
 
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
hnisiji
 
Ad

More from Hayahide Yamagishi (16)

PPTX
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
Hayahide Yamagishi
 
PDF
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
Hayahide Yamagishi
 
PDF
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
Hayahide Yamagishi
 
PDF
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
Hayahide Yamagishi
 
PDF
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
Hayahide Yamagishi
 
PDF
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
Hayahide Yamagishi
 
PDF
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
Hayahide Yamagishi
 
PDF
[ML論文読み会資料] Training RNNs as Fast as CNNs
Hayahide Yamagishi
 
PDF
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
Hayahide Yamagishi
 
PDF
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
Hayahide Yamagishi
 
PDF
Why neural translations are the right length
Hayahide Yamagishi
 
PDF
A hierarchical neural autoencoder for paragraphs and documents
Hayahide Yamagishi
 
PDF
ニューラル論文を読む前に
Hayahide Yamagishi
 
PPTX
ニューラル日英翻訳における出力文の態制御
Hayahide Yamagishi
 
PPTX
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation
Hayahide Yamagishi
 
PPTX
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
Hayahide Yamagishi
 
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
Hayahide Yamagishi
 
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
Hayahide Yamagishi
 
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
Hayahide Yamagishi
 
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
Hayahide Yamagishi
 
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
Hayahide Yamagishi
 
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
Hayahide Yamagishi
 
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
Hayahide Yamagishi
 
[ML論文読み会資料] Training RNNs as Fast as CNNs
Hayahide Yamagishi
 
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
Hayahide Yamagishi
 
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
Hayahide Yamagishi
 
Why neural translations are the right length
Hayahide Yamagishi
 
A hierarchical neural autoencoder for paragraphs and documents
Hayahide Yamagishi
 
ニューラル論文を読む前に
Hayahide Yamagishi
 
ニューラル日英翻訳における出力文の態制御
Hayahide Yamagishi
 
[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation
Hayahide Yamagishi
 
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
Hayahide Yamagishi
 
Ad

Recently uploaded (9)

PDF
工業用ミストシステム調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
2418867459
 
PDF
埋め込み型ドラッグデリバリーデバイスの成長予測:2031年には751百万米ドルに到達へ
2418867459
 
PPTX
20250729_TechTalk_QlikTalendCloud_データ品質とデータガバナンス
QlikPresalesJapan
 
PPTX
【Qlik 医療データ活用勉強会】第50回 日本医療マネジメント学会参加報告、DPCデータの活用等
QlikPresalesJapan
 
PDF
ダイヤモンドスラリー市場規模の成長見通し:2031年には193百万米ドルに到達へ
yhresearch
 
PPTX
BEIS ORIENTATION FOR S.Y2024 - 2025.pptx
AsmiraCo2
 
PDF
硫酸ナトリウム市場、CAGR0.50%で成長し、2031年には1520百万米ドル規模に
yhresearch
 
PPTX
PRESENTASI IZIN OPERASIONAL SMK ISLAM KARYA MANDIRI
BAHRULALAM27
 
PDF
RV車市場、CAGR2.60%で成長し、2031年には37640百万米ドル規模に
yhresearch
 
工業用ミストシステム調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
2418867459
 
埋め込み型ドラッグデリバリーデバイスの成長予測:2031年には751百万米ドルに到達へ
2418867459
 
20250729_TechTalk_QlikTalendCloud_データ品質とデータガバナンス
QlikPresalesJapan
 
【Qlik 医療データ活用勉強会】第50回 日本医療マネジメント学会参加報告、DPCデータの活用等
QlikPresalesJapan
 
ダイヤモンドスラリー市場規模の成長見通し:2031年には193百万米ドルに到達へ
yhresearch
 
BEIS ORIENTATION FOR S.Y2024 - 2025.pptx
AsmiraCo2
 
硫酸ナトリウム市場、CAGR0.50%で成長し、2031年には1520百万米ドル規模に
yhresearch
 
PRESENTASI IZIN OPERASIONAL SMK ISLAM KARYA MANDIRI
BAHRULALAM27
 
RV車市場、CAGR2.60%で成長し、2031年には37640百万米ドル規模に
yhresearch
 

[ML論文読み会資料] Teaching Machines to Read and Comprehend

  • 1. Teaching Machines to Read and Comprehend Karl Moritz Hermann, Tomas Kocisky, Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa Suleyman and Phil Blunsom NIPS 2015 読む人: M1 山岸駿秀
  • 2. Introduction ● Natural Language Reading Comprehension の論文 ● 読解のタスクも教師ありで学習したいが、データがない ○ 文書数が数百とかだった ○ 教師なしでテンプレート等を使う研究が多かった ● 大規模データを作った ○ Document, query, answerの三つ組のセット ● ニューラルな手法でテストした
  • 3. Supervised training data for reading comprehension ● p(a|c, q) を計算したい ○ a: answer, c: context document, q: query ● (document, query, answer) の3つ組のデータが欲しい ● CNNから93k、Daily Mailから220kの記事を収集 ○ 各記事に箇条書きで要約がついている → query ○ この要約文は記事中にはない ○ 要約文は複数ある → 記事数 < query数
  • 4. Entity replacement and permutation ● 共起を見たり、世界知識で解けたりするデータは困る ○ The hi-tech bra that helps you beat breast X. ○ Could Saccharin help beat X? ○ Can fish oils help fight prostate X? ○ Xに当てはまるのは?→ Cancer. ● 共参照解析を使って、同じ意味のフレーズを特殊トークンで置 き換える(Anonymize) ○ トークンは毎回変える ○ クエリだけ読めばわかる問題を減らす
  • 7. Baseline ● Maximum frequency ○ 文書中で一番頻度の高いentityを返す ○ entityは1文書中に25程度ある ○ これが正解である確率は3割程度 ● Exclusive frequency ○ {文書中のentity} - {query中のentity}の中のentityのうち、文書中で 一番頻度の高いentity ○ クエリに正解が含まれている可能性は低いという仮定
  • 8. Frame-Semantic Model ● Frame-semantic parserから述語項の3つ組の情報を得る ○ entityをanonymizeする前のデータに対してparsing ● 以下のルールを試してxを得る(2つ以上取れたらランダムで選ぶ)
  • 9. Word Distance Benchmark ● 共参照解析を使って、query中のXに該当しそうなentityを得 る ● Xと、候補のentityの文脈との距離を測る ○ 文脈 = entityとentityの近くの単語の距離を測り、近くの単語全ての 距離を足したもの ○ 近くの単語 = 8単語(おそらく前4・後4で8単語) どうやって距離を測るのかは載っていなかった気がする……
  • 10. Neural Network Models ● 以下の確率を求めたい ○ V: Vocabulary(文書・クエリ中の語彙 + entity masker + ‘X’) ○ gが実際のネットワークの出力
  • 12. Model 1: The Deep LSTM Reader ● x: 入力される単語列 ○ 1文書を1文とした単語列 + ‘|||’ + クエリ ● t: 時刻、k: layer ● g(d, q) = y(t = |d| + |q| + 1)
  • 13. Model 2: The Attentive Reader ● 文書用のencoder d とクエリ用のencoder qを用意 ○ 1-layer, bi-directional LSTM ● クエリを先に読み込んでおく → ● 以下の式でattentionを示すrを作る ● 最終的なgは以下のようになる
  • 14. Model 3: The Impatient Reader ● クエリを先に読み込み、各時刻に保存 ● |クエリ長|回だけattentionを計算する ○ 1ステップ前のattentionの結果を利用する ○ LSTM的なものは使わない(純粋なRNN) ● 最終的なgは以下のようになる
  • 15. Empirical Evaluation ● はじめに作成したコーパスで実験 ● RmsProp (momentum = 0.9) で学習 ● その他のハイパーパラメータ
  • 16. Result 1: Frame-semantic model ● あまり精度が出なかった ○ Pipeline処理 → Parserの 精度の低さが影響する ○ 言語によってParserの状況 が変わる ● 答えるのに必要な文数にス ケールしない
  • 17. Result 2: Word Distance Benchmark ● 思っていたよりよくできていた ● 3つ組の関係では取れないものが取れている? ○ Q: “Tom Hanks is friends with X’s manager, Scooter Brown.” ○ D: “ ... turns out he is good friends with Scooter Brown, manager for Carly Rae Jepsen.” ○ 3つ組は動詞を含む → (he, is, friend) しか得られなかった? ○ Word Distance Benchmarkは、friendshipやmanagementの 関係も得られている? ● 文書とクエリの単語の表層の一致も多かったため、向いてい た可能性
  • 18. Result 3: Neural Models ● 多層LSTMは長距離の関係を捉 えられる ○ 2000語/文書の入力でさえ簡単に 解けた ● Attentionは効く ○ Uniform reader(m(t)の値が全て 同じ)は悪い ○ 同じ割合の和では意味がない ● AttentiveとImpatientに差はあ まりない
  • 24. Conclusion ● 自然言語理解のための大きなデータを作った ○ [Chen+ ACL2016]で、簡単なタスクであることが判明 ○ 2015-2016の2年間ではよく使われていたが、2017年はあまり… ○ https://www.slideshare.net/takahirokubo7792/machine-comprehension ● 基礎的なニューラル手法を試した ○ アテンションは長い系列を見るためには必須 ● 単語の知識や複数文書を使いたい ○ データサイズに対して計算の複雑さが線形比例してはいけない ● 大規模データがあればNNのモデルでよい結果を出せる