お知らせ 運営会社の年末年始休業につき、2025年12月26日(金)12時以降のconnpass機能のお問い合わせにつきましては2026年1月5日(月)より順次ご案内させていただきます。あらかじめご了承ください。

新機能 技術カンファレンスをより見つけやすく、参加しやすくするための新機能「カンファレンス特集ページ」をリリースしました。「技術」や「テーマ」などのトピック別に探せるほか、直近開催予定のカンファレンスが一覧で確認できますのでご活用ください。詳しい機能説明や掲載方法についてはこちらをご確認ください。

10月

15

第45回 強化学習アーキテクチャ勉強会

主催 : 山川宏

第45回 強化学習アーキテクチャ勉強会

広告

募集内容

参加者

無料

先着順
64/50

申込者
gutchbar
Tamaki Okui
Taku Yoshioka
HayatoIwamizu
mark55
Nori_S
kmdqcom
arima
triwave33
Ayako_Shiraki
申込者一覧を見る
開催日時
2019/10/15(火) 19:15 ~ 20:30
募集期間

2019/10/05(土) 15:43 〜
2019/10/15(火) 20:30まで

会場

KERNEL HONGO

東京都文京区本郷4-1-4 ユニゾ本郷四丁目ビル 3F

マップで見る

広告

イベントの説明

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

会場の注意点

  • DEEPCORE様のご厚意により,2019年4月から会場がKERNEL HONGO(ユニゾ本郷四丁目ビル 3F)となります
  • 入室の際,参加者の把握のため,受付にて「お名前・ご所属・ご連絡先」を記入していただくことになりました(名刺をご提出いただく形でも構いません)
  • 正面口(本郷通り沿い)にロックがかかっている場合があります. 正面口がロックされている場合には,裏側の階段から3階に上がって頂く形になります.

ご協力の程,よろしくお願いいたします.

スケジュール

  • 19:15〜19:20 オープニング
  • 19:20〜20:10 タイトル:Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model (SLAC)

講演概要:

発表者:甲野 佑(DeNA)

  • タイトル:Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model (SLAC)

  • アブストラクト
    Reinforcement Learning and Control as Probabilistic Inference [2] により,グラフィカルモデルとして強化学習を定義していくことで,改めて自然な形で強化学習を確率的に表現することができた.確率制御と強化学習の統合を試みた重要な知見だと考えられる.
    本知見によって強化学習で扱われる状態の表現を観測からの確率的な潜在変数とみなすことができるため,POMDP (部分観測マルコフ決定過程)への自然な対応も可能となる.現在,深層強化学習で扱われている課題(テレビゲーム,ロボットの連続的な運動制御)のほとんどは本質的に POMDP 課題に属する.POMDP に対しては基本的には再帰的構造(RNN 系)や時間窓(※1)を使うことで場当たり的に対処している(※2).
    本発表で紹介する Stochastic Latent actor-critic (SLAC) [1] は確率制御と強化学習の統合を試みた知見 [2] での確率モデル上での定義と同様,状態の潜在空間を確率モデルとして定義している.状態をなんらかの潜在空間に写像してから強化学習するアプローチは複数存在する(変分オートエンコーダを利用する等)が,SLAC で扱うのは完全に確率的な潜在変数であり,そうすることでより少ないサンプルから効率的に学習が行えることが示されている.
    その他利点としては,強化学習途中で得られる報酬とは一般にスパースになりがちだが,状態遷移軌跡は定常的に大量に得られる.そのため少ない報酬データに対しての学習が効率化される,また確率的な状態遷移をうまく実際に得られたデータと組み合わせることでデータを水増しし,環境への試行錯誤回数を少なくするなどが考えられる.その代わり,現時点では end-to-end でオンラインな学習としては成立していない点もあり,再帰的な近似関数を用いた POMDP のアプローチと比べて劣る側面も存在する.
    状態の潜在空間を明示的に学習に利用するアプローチ自体は昔から存在するため,本発表では確率制御と強化学習の統合を試みた知見 [2] から,対象研究 [1] がそれらとどのような新規性と違いがあるかを解説できればと考えている.
    ※1 時間方向に m フレーム分の入力画像をまとめて関数近似器に入力する工夫を指す
    ※2 場当たり的とネガティブな表現を用いているが,それらが間違いっているわけではない

  • 参考文献
    [1]Lee, A. X., Nagabandi, A., Abbeel, P., "Levine, S., Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model", arXiv preprint arXiv:1907.00953 (2019).
    https://arxiv.org/abs/1907.00953
    [2]Sergey, L. "Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review", arXiv preprint arXiv:1805.00909 (2018).
    https://arxiv.org/abs/1805.00909

広告

資料 資料をもっと見る/編集する

資料が投稿されると、最新の3件が表示されます。

広告

フィード

rl_architecture

rl_architecture さんが 第45回 強化学習アーキテクチャ勉強会 を公開しました。

2019/10/05 15:43

第45回 強化学習アーキテクチャ勉強会 has been published!

グループ

強化学習アーキテクチャ勉強会

イベント数 54回

メンバー数 989人

終了

2019/10/15(火)

19:15
20:30

開催日時が重複しているイベントに申し込んでいる場合、このイベントには申し込むことができません

募集期間
2019/10/05(土) 15:43 〜
2019/10/15(火) 20:30

広告

会場

KERNEL HONGO

東京都文京区本郷4-1-4 ユニゾ本郷四丁目ビル 3F

管理者

参加者(50人)

gutchbar

gutchbar

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

Nori_S

Nori_S

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

Taku Yoshioka

Taku Yoshioka

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

kmdqcom

kmdqcom

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

Ayako_Shiraki

Ayako_Shiraki

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

triwave33

triwave33

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

mark55

mark55

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Tamaki Okui

Tamaki Okui

I joined 第45回 強化学習アーキテクチャ勉強会!

HayatoIwamizu

HayatoIwamizu

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

arima

arima

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

参加者一覧(50人)

補欠者(14人)

Lach

Lach

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

yotlearning

yotlearning

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

ken

ken

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

spectre_attract

spectre_attract

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Minami

Minami

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

MMM

MMM

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

ksyundo

ksyundo

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

iiou16

iiou16

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

(退会ユーザー)

(退会ユーザー)

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

RobertLee

RobertLee

I joined 第45回 強化学習アーキテクチャ勉強会!

補欠者一覧(14人)

キャンセルした人(19人)

広告

広告