ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
This document provides an overview of POMDP (Partially Observable Markov Decision Process) and its applications. It first defines the key concepts of POMDP such as states, actions, observations, and belief states. It then uses the classic Tiger problem as an example to illustrate these concepts. The document discusses different approaches to solve POMDP problems, including model-based methods that learn the environment model from data and model-free reinforcement learning methods. Finally, it provides examples of applying POMDP to games like ViZDoom and robot navigation problems.
ArcFace: Additive Angular Margin Loss for Deep Face Recognitionharmonylab
出典: Jiankang Deng, Jia Guo, Niannan Xue, Stefanos Zafeiriou : ArcFace: Additive Angular Margin Loss for Deep Face Recognition, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (2019)
公開URL:https://arxiv.org/abs/1801.07698
概要 : 顔認識のための畳み込みニューラルネットワーク(DCNN)の課題は識別力を高める適切な損失関数を設計することです。本論文では、顔認識のための識別性の高い特徴量を得るために、Additive Angular Margin Loss (ArcFace)を提案します。一般的な顔認識ベンチマークから1兆ペアの大規模データセットなどを用いて、最先端顔認識技術との比較実験を行いました。結果は、従来手法を凌駕する精度を持つことが明らかになりました。
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
This document summarizes a research paper on modeling long-range dependencies in sequence data using structured state space models and deep learning. The proposed S4 model (1) derives recurrent and convolutional representations of state space models, (2) improves long-term memory using HiPPO matrices, and (3) efficiently computes state space model convolution kernels. Experiments show S4 outperforms existing methods on various long-range dependency tasks, achieves fast and memory-efficient computation comparable to efficient Transformers, and performs competitively as a general sequence model.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.Deep Learning JP
Deep reinforcement learning algorithms often fail to learn complex tasks. Recent works have identified three issues that form a "deadly triad" contributing to this problem: non-stationary targets, high variance, and positive correlation. New algorithms aim to address these issues by improving exploration, stabilizing learning, and decorrelating updates. Overall, deep reinforcement learning remains a challenging area with opportunities to develop more data-efficient and generally applicable algorithms.
This document provides an overview of POMDP (Partially Observable Markov Decision Process) and its applications. It first defines the key concepts of POMDP such as states, actions, observations, and belief states. It then uses the classic Tiger problem as an example to illustrate these concepts. The document discusses different approaches to solve POMDP problems, including model-based methods that learn the environment model from data and model-free reinforcement learning methods. Finally, it provides examples of applying POMDP to games like ViZDoom and robot navigation problems.
ArcFace: Additive Angular Margin Loss for Deep Face Recognitionharmonylab
出典: Jiankang Deng, Jia Guo, Niannan Xue, Stefanos Zafeiriou : ArcFace: Additive Angular Margin Loss for Deep Face Recognition, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (2019)
公開URL:https://arxiv.org/abs/1801.07698
概要 : 顔認識のための畳み込みニューラルネットワーク(DCNN)の課題は識別力を高める適切な損失関数を設計することです。本論文では、顔認識のための識別性の高い特徴量を得るために、Additive Angular Margin Loss (ArcFace)を提案します。一般的な顔認識ベンチマークから1兆ペアの大規模データセットなどを用いて、最先端顔認識技術との比較実験を行いました。結果は、従来手法を凌駕する精度を持つことが明らかになりました。
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
This document summarizes a research paper on modeling long-range dependencies in sequence data using structured state space models and deep learning. The proposed S4 model (1) derives recurrent and convolutional representations of state space models, (2) improves long-term memory using HiPPO matrices, and (3) efficiently computes state space model convolution kernels. Experiments show S4 outperforms existing methods on various long-range dependency tasks, achieves fast and memory-efficient computation comparable to efficient Transformers, and performs competitively as a general sequence model.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.Deep Learning JP
Deep reinforcement learning algorithms often fail to learn complex tasks. Recent works have identified three issues that form a "deadly triad" contributing to this problem: non-stationary targets, high variance, and positive correlation. New algorithms aim to address these issues by improving exploration, stabilizing learning, and decorrelating updates. Overall, deep reinforcement learning remains a challenging area with opportunities to develop more data-efficient and generally applicable algorithms.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
13
⽂脈付きバンディット問題を知らずに応⽤はできない(かも?)
広告A
を提⽰
閲覧者
広告B
を提⽰
知っている⼈には退屈な話・・・しかし,
⽂脈付きバンディット問題は深層強化学習応⽤時に必要な知⾒を教えてくれる
・状態の特徴量設計の重要さ
・アルゴリズムの評価とシミュレーション
閲覧者 a
閲覧者 b 閲覧者 d
閲覧者 c
閲覧者 f
潜在的なユーザー群
ほか多数
訪問
提⽰された広告を閲覧者がクリックする or しない
閲覧者 e
14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
14
バンディット問題の⼿法
試⾏錯誤しないと新規広告を含めた最良の配信⽅法はわからない
うまく試⾏錯誤するような評価⽅法
→ UCB 系アルゴリズム,Thompson Sampling がメジャー
ユーザーの属性,類似度を定義する特徴量の設計が重要
探索報酬で真の報酬推定に
反する⾏動を促進
評価の未知度合いを上乗せ
試⾏していくと減少
A B< A B>
試⾏錯誤:UCB系
A B
情報の共有:LinUCB 等
特
徴
1
特
徴
2
特
徴
3
特
徴
4
特
徴
5
特
徴
1
特
徴
2
特
徴
3
特
徴
4
特
徴
5
ユーザーの持つ特徴の評価の和
ユーザー間の同じ特徴の評価は
共有される
<
15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
15
バンディットアルゴリズムの評価と環境
実際に試してみないとアルゴリズム,ハイパーパラメータ,特徴量がよ
りよくユーザーへのアクション(広告配信)を最適化できるかが不明
→ 実運⽤⼊の前にアルゴリズムの良し悪しを評価したい
→ 過去のデータを使ってシミュレーション
広告A
を提⽰
閲覧者
広告B
を提⽰
閲覧者 a
閲覧者 b 閲覧者 d
閲覧者 c
閲覧者 f
実環境:潜在的なユーザー群
ほか多数
訪問
提⽰された広告を閲覧者がクリックする or しない
閲覧者 e
16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
広告A
を提⽰
16
バンディットアルゴリズムの評価と環境
実際に試してみないとアルゴリズム,ハイパーパラメータ,特徴量がよ
りよくユーザーへのアクション(広告配信)を最適化できるかが不明
→ 実運⽤⼊の前にアルゴリズムの良し悪しを評価したい
→ 過去のデータを使ってシミュレーション
→ 過去のデータからは実績データと異なる選択の正確な評価ができない
閲覧者
広告B
を提⽰
閲覧者 a
閲覧者 b 閲覧者 d
閲覧者 c
閲覧者 f
過去のユーザーデータ
ほか多数
サンプリング
過去のユーザー履歴:過去の提⽰広告を閲覧者がクリックした or しなかった
閲覧者 e
←過去に提⽰した広告
現学習中のアルゴリズム
はこちらを提⽰するかも→
17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
広告A
を提⽰
17
バンディットアルゴリズムの評価と環境
閲覧者
広告B
を提⽰
閲覧者 a
閲覧者 b 閲覧者 d
閲覧者 c
閲覧者 f
過去のユーザーデータ
ほか多数
サンプリング
報酬の混合モデル
過去のデータから作られた閲覧者と広告のクリック(報酬)予測モデルと
+
過去のデータからクリック実績を当時のサンプリング分布で補正した報酬値
閲覧者 e
←過去に提⽰した広告
現学習中のアルゴリズム
はこちらを提⽰するかも→
→ シミュレーション環境を教師あり学習で作成してアルゴリズムを評価
Li, L., et al. Unbiased offline evaluation of contextual-bandit-based news article recommendation algorithms. Proceedings
of the fourth ACM international conference on Web search and data mining. 2011.
18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
18
強化学習の応⽤事例
※ 上記の系列 (状態と⾏動の遷移軌跡) が強化学習を考える上での情報の単位
ユーザー
からの質問
AI
の応答
ユーザー
からの応答
AI
の応答
状態 1 ⾏動 状態 2 ⾏動
状態遷移
建物や
揺れの状態
ダンパー
の調整
建物や
揺れの状態
ダンパー
の調整
建物の揺れの⼩ささ
ユーザーの評価
報酬関数
強化学習の基本:
対話課題:
耐震ダンパー制御:
状態遷移
状態遷移
※ Seq2Seq で⽂字列⽣成を事前学習後
19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
19
強化学習と動的計画法とその利点
ある制約(MDP)を前提に,単発の意思決定 × 多段階にして探索空間を削減
動的計画法(Dynamic Programming, DP)の基本的考え⽅
全ての⼿順のパターンを試す 単発の選択を何度も繰り返し試す
次状態次状態
マルコフ決定過程(MDP) 現在参照している状態の情報のみから
次にどの状態に遷移するか決まる予測可能
(確率的な場合も)
時系列を次が予測可能な情報単位に分割できる
状態⾏動 ⾏動
20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
× 繰り返し計算
20
次状態次状態
単発の意思決定の最適化
状態⾏動 ⾏動
報酬
× 状態の数 (多段階,環境全体)
MDP の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法
強化学習と繰り返し
収束するまで繰り返す
21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
21
強化学習と繰り返し
MDP の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法
離散的な状態定義や遷移確率が⾃明でない場合に強化学習アルゴリズムを使う
π Rπ⽅策 ⽅策の評価 (収益)
⽅策(⾏動の選択分布)の評価に基づいて良い⽅策を探索/最適化する
⽅策(⾏動の選択分布)の良さを実際の⾏動結果から評価する
π’ Rπ⽅策 ⽅策の評価 (収益)
全てはこの反復で成り⽴っている
難しく⾒えてもこのなんらかの近似でしかない
評価をサンプル:環境モデルが不明だからサンプリング
⽅策の修正
25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
25
MDPと状態の特徴量の定義
状態
t
⾏動
状態
t+1
⾏動
状態遷移
⼀つ前の状態⾏動のみから次の状態が決まる
→ 1 階マルコフ連鎖 (単純マルコフ)
→ 現在の情報からのみ⾏動を最適化できる
→ 次状態が予測可能な⼊⼒が必要
・画像情報 (ゲーム)
・各種センサー情報 (運動制御など)
・+などから作られた特徴量
26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
状態
t-2
⾏動
状態
t-1
⾏動
26
MDPと状態の特徴量の定義
状態
t
⾏動
状態
t+1
⾏動
状態遷移
状態
t-3
⾏動
N 個の状態⾏動から次の状態が決まる
→ N 階マルコフ連鎖
→ 過去の情報を覚えていないと⾏動を最適化できない
ここで発⽣する問題
・過去の状態⾏動の組み合わせが爆発
- たとえ近似関数を使ってもパラメータ数が指数的に増加
・過去をどの程度の⻑さで覚えておくべきかがわからない
・全て覚えておくのが⼤変 (学習データの巨⼤化)
27. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
状態
t-2
⾏動
状態
t-1
⾏動
27
MDPと状態の特徴量の定義
状態
t
⾏動
状態
t+1
⾏動
状態遷移
状態
t-3
⾏動
状態遷移を予測するのに必要な情報だけを特徴量として設計することで
状態を圧縮して組合せ爆発を防ぐ
※ RNN を⽤いて時系列を学習する⽅法もあるが学習の難易度は上がる
過去を代替えする
状態の特徴量 t
状態
t
⾏動
状態
t+1
⾏動
状態遷移
28. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
状態
t-2
⾏動
状態
t-1
⾏動
28
MDPと状態の特徴量の定義
状態
t
⾏動
状態
t+1
⾏動
状態遷移
状態
t-3
⾏動
間の⾏動や遷移が決まりきった系列(スキル・お作法・テクニック)なら
その複数の⾏動系列をひとつの⾏動として⾒なすこともできる
状態
t+1
⾏動
状態遷移
状態
t-3
⾏動 = ある決まった状態⾏動系列 (スキル等)
e.g. 短期的なルールベース⾏動
状態特徴と⾏動の単位をうまく設計して問題を,
・⽂脈付きバンディット問題
・できるだけ短い状態遷移系列の問題
に近づけて,学習の繰り返し回数が減少,学習しやすくさせる
29. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
29
強化学習として解くのに必要なものと困難さ
(1) シミュレータ
課題環境のモデリング
(2) 報酬関数
⽬的の定義
(1) と (3) はデータサイエンスを駆使して作成する必要がある
他が不完全な設計でも⾼度な (4) の導⼊で解消できる可能性も
(3) 状態特徴の定義
特徴量の設計
(4) 強化学習アルゴリズム
解き⽅,他の不⾜を吸収可能
現実の問題に対処しようとすると (1) と (2) が作りにくい
ユーザーから
の質問 (3)
AI
の応答
ユーザーから
の応答 (3)
AI
の応答
ユーザーの評価 (2)
対話課題:
⼈間の応答モデル? (1)
30. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
30
シミュレータの問題
⾏動 A 状態 ⾏動 B
状態 a
状態 b 状態 d
状態 c
状態 f
過去に得られた状態データ群
ほか多数
サンプリング
報酬モデル
状態 e
← 実際にとった⾏動
シミュレータ要素
通常の強化学習では状態遷移の概念が加わる
→ シミュレータはなるべく正確に遷移パターンを模倣する必要がある
先ほどの⽂脈付きバンディット問題の評価を強化学習課題と捉えると・・・
31. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
31
シミュレータの問題
状態 1 ⾏動 状態 2 ⾏動
報酬
状態遷移
シミュレータ
膨⼤な反復回数が必要なので,シミュレータが⾼速であれば学習が早まる
→ それだけ学習時におけるシミュレータは重要な役割
強化学習⼀般: