SlideShare a Scribd company logo
NIPS2015読み会
End-To-End Memory Networks
S. Sukhbaatar, A. Szlam,
J. Weston, R. Fergus
Preferred Infrastructure
海野  裕也(@unnonouno)
図はすべて元論文から引用	
2016/01/20 NIPS2015読み会@ドワンゴ
Memory networks
l  2013年年辺りからFacebookが取り組んでいる
テーマ
l  ⾃自然⽂文で与えられた事実を記憶し、質問に対し
て⾃自然に答えるフレームワークを考えている
l  今回の話は、全体の仕組みをend-to-endで学習
する
2
これ、1年年前の
論論⽂文だよね
3
4
今⽇日話すわけ
l  春にChainerで再実装した時、ちゃんと動かな
かった
l  年年末に作りなおしたら、ちゃんと動いた(デー
タ読むところのバグだった)
l  トータルで300⾏行行くらい
l  Chainer上での対応を交えながら解説
5
対象のタスク:bAbI task
l  ⼈人が部屋の中を⾏行行動した事実が書かれていて、途中途中
で簡単な質問をされる
l  極めて⼈人⼯工的なタスクで、語彙も⾮非常に限られている
(177語彙)
6
定式化
l  ⼊入⼒力力
l  知識識源: {x1, x2, … , xn}
l  質問: q
l  それぞれ⾃自然⽂文(任意⻑⾧長の単語列列=整数列列)
l  出⼒力力
l  質問への回答: a (単⼀一の単語=整数)
l  パラメータ
l  埋め込みベクトル⾏行行列列: A, B, C (d x V次元)
l  回答⽤用⾏行行列列: W (V x d次元)
l  d: 埋め込みベクトルの次元数、V: 語彙数
7
⼿手法概要
8
⽂文のエンコード
l  埋め込みベクトルの和にするだけ
l  F.sum(model.A(x), axis=1)
9	
語彙数 V	
次
元
数
n	
1 3 2 5 1x=	
単語ID
∑	
 =
検索索⽤用の「記憶」を作る
l  ⼊入⼒力力⽂文xiを埋め込みベクトルAで、先の要領領でベクトル
miに直す
10	
1 3 2 5 1x1=	
4 3 1 7x2=	
1 3 4 8 9x3=	
	
m1	
m2	
m3	
m4	
・・・	
A
クエリのエンコード
l  クエリは別の埋め込みBで、同様にエンコードしてuに
する
11	
B	
 3 4 1 7 9q =	
u =
記憶の重要度度を計算する
l  各miとuの内積を取って、Softmaxにかけて、⽂文の重要
度度をはかり、piとする(Attention)
l  p = F.softmax(F.batch_matmul(m, u))
12	
m1	
m2	
m3	
m4	
u	
p1	
 p2	
 p3	
 p4	
 pi = softmax(mi
Tu)
回答⽤用の「記憶」を作る
各⽂文xiは埋め込みCを使って別のベクトルciを作る
13	
1 3 2 5 1x1=	
4 3 1 7x2=	
1 3 4 8 9x3=	
	
c1	
 c2	
 c3	
 c4	
・・・	
C
回答⽤用の知識識をまとめる
l  ciをpiで重みづけして線形和を取ってoとする
l  o = F.batch_matmul(F.swapaxes(c ,2, 1), p)
14	
p1	
 p2	
 p3	
 p4	
c1	
 c2	
 c3	
 c4	
x	
∑	
 =	
o
回答を⽣生成する
l  もとの質問uとoを⾜足して、できたベクトルをWにかけて
答えを得る
l  loss = F.softmax_cross_entropy(model.W(u + o), a)
15	
o	
 u	
+	
 W
おさらい
l  知識識源xiはAを使ってmiに、Cを使ってciに
l  質問qはBを使ってuに
l  miとuの内積とsoftmaxを取って、各知識識に対す
る重みpiに
l  ciをpiで重み付き和を取ってoに
l  o + uをWにかけて、期待する答えaとの
softmax cross entropyをlossとする
16
これって何しているんだろう?
17	
類似ベクトルで
検索索している雰囲気
BoWでベク
トル化
答え情報が
埋め込まれる?
答えを選択?
多層化
l  先の処理理の出⼒力力を、次の
層の⼊入⼒力力に使う
l  何回も使う
l  複数の⽂文からしか帰結で
きないことを回答でき
る?
18
ここから細かい⼯工夫が沢⼭山
19
重みに対する制約
l  Adjacent
l  上位階層との重みベクトルを共通にする
l  Ak+t = Ck
l  B = A1
l  これは重みpiの計算のときに、qもxも同じエン
コードをすることを⾔言っている
l  Layer-wise
l  A1 = A2 = …
l  C1 = C2 = …
20	
基本、こちらを使う
時間に対する調整(temporal encoding)
l  新しい知識識を選んで欲しいので、時刻に対して重みをつ
ける
l  さらっと書いてあるが、これがないと新しい情報が重要
ということがわからないので、根本的に⼤大事な(そして
雑な)⼯工夫
21	
時刻に応じたベクトルを⾜足す
x1 = Sam walks into the kitchen
x2 = Sam walks into the bedroom
q = Where is Sam?
20種類の異異なる種類の質問への正解率率率
22	
※多層化は3段、Adjacent制約
※数字は小さいほうがよい	
ヒントを使った学習なので
スコアが良良い
単語の位置に対する調整(position encoding)
l  流流⽯石に単なる埋め込みベクトルの総和は気が引ける
l  ⽂文中の位置に応じて重みをかえる
23	
単語ごとの重み
位置に基づいて計算
PEの効果
24
さらに⾊色々・・・
l Linear start (LS)
l  学習初期の段階ではsoftmax層を抜いて、学
習を早める
l  Random noise (RN)
l  学習時に10%の空の記憶をいれる
l  正則化の効果がある?
25
最終結果
26	
だいぶ良良くなった!
⾔言語モデルによる実験(おまけ?)
l  ⽂文の代わりに全部⽂文字だと思う(単⼀一の埋め込
みベクトル)
l  質問は定数ベクトル
l  回答は次の単語
l  感覚的には何⽂文字前の単語の、どういう情報を
使って次を予測するか学習する
27
結果だけ
28
所感
l  事実を覚えて回答する、という記憶・質問・回
答の⼀一連のプロセスをend-to-endにやるという、
⽅方向性を⽰示したのがポイント
l  タスク⾃自体は依然としてトイタスクだが、徐々
に現実のタスクに近づけていくと思われる
l  ヒューリスティックは極めて多く、⼯工夫のしど
ころは多い
29
まとめ
l  複数の⽂文からなる事実から、質問に答えるタス
クを、end-to-endで学習する⼿手法を提案した
l  単語の埋め込み、⽂文のエンコード、各事実に対
するattention、回答の⽣生成までを単⼀一のネット
ワークにする
l  トイタスクだが、平均エラー率率率6%程度度まで達成
した
l  ヒューリスティックは極めて多い
30

More Related Content

What's hot (20)

PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
 
PDF
グラフデータ分析 入門編
順也 山口
 
PDF
深層生成モデルと世界モデル
Masahiro Suzuki
 
PDF
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
PDF
[DL輪読会]Ensemble Distribution Distillation
Deep Learning JP
 
PPTX
帰納バイアスが成立する条件
Shinobu KINJO
 
PDF
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII
 
PDF
多様な強化学習の概念と課題認識
佑 甲野
 
PPTX
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
 
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
PDF
PRML学習者から入る深層生成モデル入門
tmtm otm
 
PDF
深層強化学習でマルチエージェント学習(前篇)
Junichiro Katsuta
 
PPTX
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
 
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
 
PDF
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Hideki Tsunashima
 
PDF
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
京都大学大学院情報学研究科数理工学専攻
 
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
PDF
顕著性マップの推定手法
Takao Yamanaka
 
PPTX
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
 
グラフデータ分析 入門編
順也 山口
 
深層生成モデルと世界モデル
Masahiro Suzuki
 
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
[DL輪読会]Ensemble Distribution Distillation
Deep Learning JP
 
帰納バイアスが成立する条件
Shinobu KINJO
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII
 
多様な強化学習の概念と課題認識
佑 甲野
 
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
PRML学習者から入る深層生成モデル入門
tmtm otm
 
深層強化学習でマルチエージェント学習(前篇)
Junichiro Katsuta
 
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Hideki Tsunashima
 
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
京都大学大学院情報学研究科数理工学専攻
 
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
顕著性マップの推定手法
Takao Yamanaka
 
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 

Similar to NIP2015読み会「End-To-End Memory Networks」 (20)

PDF
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Masayoshi Kondo
 
PDF
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
株式会社メタップスホールディングス
 
PDF
RNN-based Translation Models (Japanese)
NAIST Machine Translation Study Group
 
PDF
Memory Networks (End-to-End Memory Networks の Chainer 実装)
Shuyo Nakatani
 
PDF
ChainerによるRNN翻訳モデルの実装+@
Yusuke Oda
 
PDF
[ML論文読み会資料] Teaching Machines to Read and Comprehend
Hayahide Yamagishi
 
PDF
ニューラルネットワーク勉強会1
yhide
 
PPTX
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Yuki Tomo
 
PDF
A Chainer MeetUp Talk
Yusuke Oda
 
PDF
ニューラルネットワークを用いた自然言語処理
Sho Takase
 
PPTX
Ordered neurons integrating tree structures into recurrent neural networks
Kazuki Fujikawa
 
PDF
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
STAIR Lab, Chiba Institute of Technology
 
PPTX
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
Yusuke Iwasawa
 
PDF
Learning to forget continual prediction with lstm
Fujimoto Keisuke
 
PDF
Recurrent Neural Networks
Seiya Tokui
 
PDF
EMNLP2016読み会@黒橋研
Motoki Sato
 
PDF
Chainerの使い方と 自然言語処理への応用
Yuya Unno
 
PDF
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
scapegoat06
 
PDF
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Masayoshi Kondo
 
PPTX
深層学習による自然言語処理の研究動向
STAIR Lab, Chiba Institute of Technology
 
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Masayoshi Kondo
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
株式会社メタップスホールディングス
 
RNN-based Translation Models (Japanese)
NAIST Machine Translation Study Group
 
Memory Networks (End-to-End Memory Networks の Chainer 実装)
Shuyo Nakatani
 
ChainerによるRNN翻訳モデルの実装+@
Yusuke Oda
 
[ML論文読み会資料] Teaching Machines to Read and Comprehend
Hayahide Yamagishi
 
ニューラルネットワーク勉強会1
yhide
 
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Yuki Tomo
 
A Chainer MeetUp Talk
Yusuke Oda
 
ニューラルネットワークを用いた自然言語処理
Sho Takase
 
Ordered neurons integrating tree structures into recurrent neural networks
Kazuki Fujikawa
 
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
STAIR Lab, Chiba Institute of Technology
 
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
Yusuke Iwasawa
 
Learning to forget continual prediction with lstm
Fujimoto Keisuke
 
Recurrent Neural Networks
Seiya Tokui
 
EMNLP2016読み会@黒橋研
Motoki Sato
 
Chainerの使い方と 自然言語処理への応用
Yuya Unno
 
「深層学習による自然言語処理」読書会 4.2記憶ネットワーク@レトリバ
scapegoat06
 
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Masayoshi Kondo
 
深層学習による自然言語処理の研究動向
STAIR Lab, Chiba Institute of Technology
 
Ad

More from Yuya Unno (20)

PDF
深層学習で切り拓くパーソナルロボットの未来
Yuya Unno
 
PDF
深層学習時代の 自然言語処理ビジネス
Yuya Unno
 
PDF
ベンチャー企業で言葉を扱うロボットの研究開発をする
Yuya Unno
 
PDF
PFNにおける セミナー活動
Yuya Unno
 
PDF
深層学習フレームワーク Chainerとその進化
Yuya Unno
 
PDF
進化するChainer
Yuya Unno
 
PDF
予測型戦略を知るための機械学習チュートリアル
Yuya Unno
 
PDF
深層学習による機械とのコミュニケーション
Yuya Unno
 
PDF
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
Yuya Unno
 
PDF
Chainer, Cupy入門
Yuya Unno
 
PDF
Chainerのテスト環境とDockerでのCUDAの利用
Yuya Unno
 
PDF
深層学習フレームワークChainerの特徴
Yuya Unno
 
PDF
子供の言語獲得と機械の言語獲得
Yuya Unno
 
PDF
Chainer入門と最近の機能
Yuya Unno
 
PDF
GPU上でのNLP向け深層学習の実装について
Yuya Unno
 
PDF
言語と知識の深層学習@認知科学会サマースクール
Yuya Unno
 
PDF
企業における自然言語処理技術利用の最先端
Yuya Unno
 
PDF
「知識」のDeep Learning
Yuya Unno
 
PDF
自然言語処理@春の情報処理祭
Yuya Unno
 
PDF
ピーFIの研究開発現場
Yuya Unno
 
深層学習で切り拓くパーソナルロボットの未来
Yuya Unno
 
深層学習時代の 自然言語処理ビジネス
Yuya Unno
 
ベンチャー企業で言葉を扱うロボットの研究開発をする
Yuya Unno
 
PFNにおける セミナー活動
Yuya Unno
 
深層学習フレームワーク Chainerとその進化
Yuya Unno
 
進化するChainer
Yuya Unno
 
予測型戦略を知るための機械学習チュートリアル
Yuya Unno
 
深層学習による機械とのコミュニケーション
Yuya Unno
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
Yuya Unno
 
Chainer, Cupy入門
Yuya Unno
 
Chainerのテスト環境とDockerでのCUDAの利用
Yuya Unno
 
深層学習フレームワークChainerの特徴
Yuya Unno
 
子供の言語獲得と機械の言語獲得
Yuya Unno
 
Chainer入門と最近の機能
Yuya Unno
 
GPU上でのNLP向け深層学習の実装について
Yuya Unno
 
言語と知識の深層学習@認知科学会サマースクール
Yuya Unno
 
企業における自然言語処理技術利用の最先端
Yuya Unno
 
「知識」のDeep Learning
Yuya Unno
 
自然言語処理@春の情報処理祭
Yuya Unno
 
ピーFIの研究開発現場
Yuya Unno
 
Ad

Recently uploaded (6)

PDF
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
NTT DATA Technology & Innovation
 
PDF
20250711JIMUC総会_先進IT運用管理分科会Connpass公開資料.pdf
ChikakoInami1
 
PDF
Google Driveハブ型Obsidian同期環境:PC編集とモバイル閲覧を安全・効率的に実現するクロスデバイス構築ガイド
honeshabri
 
PDF
20250717_Devin×GitHubCopilotで10人分の仕事は出来るのか?.pdf
Masaki Yamakawa
 
PPTX
Devcontainerのススメ(1)-Devcontainerとはどういう技術?-
iPride Co., Ltd.
 
PDF
20250711JIMUC総会IBM Automation_Platform最新情報_Connpass公開版.pdf
ChikakoInami1
 
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
NTT DATA Technology & Innovation
 
20250711JIMUC総会_先進IT運用管理分科会Connpass公開資料.pdf
ChikakoInami1
 
Google Driveハブ型Obsidian同期環境:PC編集とモバイル閲覧を安全・効率的に実現するクロスデバイス構築ガイド
honeshabri
 
20250717_Devin×GitHubCopilotで10人分の仕事は出来るのか?.pdf
Masaki Yamakawa
 
Devcontainerのススメ(1)-Devcontainerとはどういう技術?-
iPride Co., Ltd.
 
20250711JIMUC総会IBM Automation_Platform最新情報_Connpass公開版.pdf
ChikakoInami1
 

NIP2015読み会「End-To-End Memory Networks」