Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
KO
Uploaded by
Katsuki Ohto
PPTX, PDF
6,156 views
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
Alpha(Go)ZeroやPonanzaについて
Technology
◦
Related topics:
Deep Learning
•
Reinforcement Learning
•
Read more
15
Save
Share
Embed
Download
Downloaded 55 times
1
/ 32
2
/ 32
3
/ 32
4
/ 32
5
/ 32
6
/ 32
7
/ 32
8
/ 32
9
/ 32
10
/ 32
11
/ 32
12
/ 32
13
/ 32
14
/ 32
15
/ 32
16
/ 32
17
/ 32
18
/ 32
19
/ 32
20
/ 32
21
/ 32
22
/ 32
23
/ 32
24
/ 32
25
/ 32
26
/ 32
27
/ 32
28
/ 32
29
/ 32
30
/ 32
31
/ 32
32
/ 32
More Related Content
PDF
強化学習その2
by
nishio
PDF
強化学習その3
by
nishio
PDF
深層学習による非滑らかな関数の推定
by
Masaaki Imaizumi
PDF
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
by
Deep Learning JP
PDF
機械学習と主成分分析
by
Katsuhiro Morishita
PDF
GAN(と強化学習との関係)
by
Masahiro Suzuki
PPTX
[DL輪読会]Meta Reinforcement Learning
by
Deep Learning JP
PDF
Deeplearning輪読会
by
正志 坪坂
強化学習その2
by
nishio
強化学習その3
by
nishio
深層学習による非滑らかな関数の推定
by
Masaaki Imaizumi
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
by
Deep Learning JP
機械学習と主成分分析
by
Katsuhiro Morishita
GAN(と強化学習との関係)
by
Masahiro Suzuki
[DL輪読会]Meta Reinforcement Learning
by
Deep Learning JP
Deeplearning輪読会
by
正志 坪坂
What's hot
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
by
SSII
PDF
PRML輪読#3
by
matsuolab
PDF
HiPPO/S4解説
by
Morpho, Inc.
PDF
Automatic Mixed Precision の紹介
by
Kuninobu SaSaki
PPTX
論文紹介 : Unifying count based exploration and intrinsic motivation
by
Katsuki Ohto
PDF
強化学習その1
by
nishio
PDF
PRML学習者から入る深層生成モデル入門
by
tmtm otm
PPTX
Efficient Neural Architecture Search via Parameters Sharing @ ICML2018読み会
by
tomohiro kato
PDF
深層生成モデルと世界モデル(2020/11/20版)
by
Masahiro Suzuki
PPTX
[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...
by
Deep Learning JP
PDF
変分推論法(変分ベイズ法)(PRML第10章)
by
Takao Yamanaka
PDF
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
by
Deep Learning JP
PDF
ベイジアンディープニューラルネット
by
Yuta Kashino
PDF
多様な強化学習の概念と課題認識
by
佑 甲野
PDF
[DL輪読会]Control as Inferenceと発展
by
Deep Learning JP
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
by
Yusuke Uchida
PDF
強化学習と逆強化学習を組み合わせた模倣学習
by
Eiji Uchibe
PDF
SSII2022 [OS3-02] Federated Learningの基礎と応用
by
SSII
PDF
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
by
Hironobu Fujiyoshi
PPTX
強化学習アルゴリズムPPOの解説と実験
by
克海 納谷
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
by
SSII
PRML輪読#3
by
matsuolab
HiPPO/S4解説
by
Morpho, Inc.
Automatic Mixed Precision の紹介
by
Kuninobu SaSaki
論文紹介 : Unifying count based exploration and intrinsic motivation
by
Katsuki Ohto
強化学習その1
by
nishio
PRML学習者から入る深層生成モデル入門
by
tmtm otm
Efficient Neural Architecture Search via Parameters Sharing @ ICML2018読み会
by
tomohiro kato
深層生成モデルと世界モデル(2020/11/20版)
by
Masahiro Suzuki
[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...
by
Deep Learning JP
変分推論法(変分ベイズ法)(PRML第10章)
by
Takao Yamanaka
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
by
Deep Learning JP
ベイジアンディープニューラルネット
by
Yuta Kashino
多様な強化学習の概念と課題認識
by
佑 甲野
[DL輪読会]Control as Inferenceと発展
by
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
by
Yusuke Uchida
強化学習と逆強化学習を組み合わせた模倣学習
by
Eiji Uchibe
SSII2022 [OS3-02] Federated Learningの基礎と応用
by
SSII
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
by
Hironobu Fujiyoshi
強化学習アルゴリズムPPOの解説と実験
by
克海 納谷
Similar to Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
PPTX
[DL輪読会]Assessing Game Balance with AlphaZero: Exploring Alternative Rule Sets...
by
Deep Learning JP
PPTX
180215 Ponanzaにおける強化学習、ディープラーニングとその先
by
HEROZ-JAPAN
PPTX
Ponanzaにおける強化学習とディープラーニングの応用
by
HEROZ-JAPAN
PPT
AlphaGo Zero 解説
by
suckgeun lee
PPTX
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
by
Daiyu Hatakeyama
PDF
AlphaGo の論文を読んで (MIJS 分科会資料 2016/11/08)
by
Akihiro HATANAKA
PDF
Deeplearning lt.pdf
by
Deep Learning JP
PDF
コンピュータ将棋・囲碁における機械学習活用
by
Takashi Kato
PDF
ゲームAI入門(前半)
by
Youichiro Miyake
PDF
コンピュータ将棋について~機械学習を用いた局面学習への道~
by
Takashi Kato
PDF
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
by
Jun Okumura
PDF
AI(強化学習)でロボットに学習させてみた
by
akmtt
PDF
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
by
DeNA
PDF
[DL輪読会]AlphaStarとその関連技術
by
Deep Learning JP
PDF
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
by
佑 甲野
DOCX
レポート深層学習Day4
by
ssuser9d95b3
PDF
思いついたアルゴリズムを TensorFlow で実装してみた話
by
Shuhei Fujiwara
PDF
視覚強化学習における画像予測モデルを導入した顕著性誘導 Q ネットワーク
by
MILab
PPTX
AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜
by
Kentaro Imai
PDF
Start rl with_unity_machine_learning_agents
by
infinite_loop
[DL輪読会]Assessing Game Balance with AlphaZero: Exploring Alternative Rule Sets...
by
Deep Learning JP
180215 Ponanzaにおける強化学習、ディープラーニングとその先
by
HEROZ-JAPAN
Ponanzaにおける強化学習とディープラーニングの応用
by
HEROZ-JAPAN
AlphaGo Zero 解説
by
suckgeun lee
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
by
Daiyu Hatakeyama
AlphaGo の論文を読んで (MIJS 分科会資料 2016/11/08)
by
Akihiro HATANAKA
Deeplearning lt.pdf
by
Deep Learning JP
コンピュータ将棋・囲碁における機械学習活用
by
Takashi Kato
ゲームAI入門(前半)
by
Youichiro Miyake
コンピュータ将棋について~機械学習を用いた局面学習への道~
by
Takashi Kato
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
by
Jun Okumura
AI(強化学習)でロボットに学習させてみた
by
akmtt
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
by
DeNA
[DL輪読会]AlphaStarとその関連技術
by
Deep Learning JP
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
by
佑 甲野
レポート深層学習Day4
by
ssuser9d95b3
思いついたアルゴリズムを TensorFlow で実装してみた話
by
Shuhei Fujiwara
視覚強化学習における画像予測モデルを導入した顕著性誘導 Q ネットワーク
by
MILab
AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜
by
Kentaro Imai
Start rl with_unity_machine_learning_agents
by
infinite_loop
More from Katsuki Ohto
PDF
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
by
Katsuki Ohto
PDF
ゲームAIを学んで1000年生きた話
by
Katsuki Ohto
PPTX
論文紹介: Value Prediction Network
by
Katsuki Ohto
PPTX
将棋ニューラルネットとこれからのゲームAI
by
Katsuki Ohto
PPTX
Introduction of "TrailBlazer" algorithm
by
Katsuki Ohto
PPTX
大富豪に対する機械学習の適用 + α
by
Katsuki Ohto
PDF
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”
by
Katsuki Ohto
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
by
Katsuki Ohto
ゲームAIを学んで1000年生きた話
by
Katsuki Ohto
論文紹介: Value Prediction Network
by
Katsuki Ohto
将棋ニューラルネットとこれからのゲームAI
by
Katsuki Ohto
Introduction of "TrailBlazer" algorithm
by
Katsuki Ohto
大富豪に対する機械学習の適用 + α
by
Katsuki Ohto
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”
by
Katsuki Ohto
Recently uploaded
PDF
「Technology×Business×生成AI」株式会社CoToMaで未来を作る!
by
fujishiman
PDF
n8n - オープンソースで実現する次世代ワークフロー自動化
by
Daisuke Masuda
PDF
AIアクセラレータの力で加速する人工知能の未来: 技術革新と産業革命を促進する力
by
Data Source
PDF
ADAS自動車の未来: 次世代運転支援技術が実現する新たな運転体験とその進化の可能性
by
Data Source
PDF
ADAS自動運転の未来: 次世代の技術革新が切り開く新しいモビリティ社会とその可能性
by
Data Source
PDF
Marp - MarkdownとCSSでスライド作成 2025/10/31の勉強会で発表されたものです。
by
iPride Co., Ltd.
PDF
AIアクセラレーターが切り拓く未来: 技術革新の加速とそれがもたらす社会的・経済的影響
by
Data Source
PDF
AIアクセラレーターの力で加速する次世代AI技術: 革新が変革するテクノロジーの未来
by
Data Source
PDF
ReflecTrace: Hover Interface using Corneal Reflection Images Captured by Smar...
by
sugiuralab
PDF
講演資料「テキストマイニングでできることー理学療法分野で活用するためのコツと注意点ー」
by
Matsushita Laboratory
PPTX
20251029.セミナー.Claude Code on the web.pptx
by
ssuserc9be7c
PDF
Dragino社製 LoRaWAN AI人流カウンターPF52 日本語マニュアル
by
CRI Japan, Inc.
PDF
AIプロセッサの未来: 革新技術が切り開く次世代コンピュータ革命とその無限の可能性
by
Data Source
「Technology×Business×生成AI」株式会社CoToMaで未来を作る!
by
fujishiman
n8n - オープンソースで実現する次世代ワークフロー自動化
by
Daisuke Masuda
AIアクセラレータの力で加速する人工知能の未来: 技術革新と産業革命を促進する力
by
Data Source
ADAS自動車の未来: 次世代運転支援技術が実現する新たな運転体験とその進化の可能性
by
Data Source
ADAS自動運転の未来: 次世代の技術革新が切り開く新しいモビリティ社会とその可能性
by
Data Source
Marp - MarkdownとCSSでスライド作成 2025/10/31の勉強会で発表されたものです。
by
iPride Co., Ltd.
AIアクセラレーターが切り拓く未来: 技術革新の加速とそれがもたらす社会的・経済的影響
by
Data Source
AIアクセラレーターの力で加速する次世代AI技術: 革新が変革するテクノロジーの未来
by
Data Source
ReflecTrace: Hover Interface using Corneal Reflection Images Captured by Smar...
by
sugiuralab
講演資料「テキストマイニングでできることー理学療法分野で活用するためのコツと注意点ー」
by
Matsushita Laboratory
20251029.セミナー.Claude Code on the web.pptx
by
ssuserc9be7c
Dragino社製 LoRaWAN AI人流カウンターPF52 日本語マニュアル
by
CRI Japan, Inc.
AIプロセッサの未来: 革新技術が切り開く次世代コンピュータ革命とその無限の可能性
by
Data Source
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
1.
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza Katsuki Ohto
2018/1/29 @TFUG #7
2.
本日の目標 •事前知識なしで最強になった Alpha (Go)
Zero のメカニズムを伝える •ゲームAIの流れと今後の未来についてイメージ を膨らむようにする
3.
自己紹介 • 大渡 勝己(おおとかつき) •
経歴 ~ 2014.3 大学生 (認知神経科学) ~ 2015.3 無職 ~ 2015.8 事務職員 ~ 2017.9 大学院生 (ゲームAI) 2017.10 ~ HEROZ株式会社 エンジニア Machine Learning 15 minutes!発表時 http://ainow.ai/2017/08/07/119456/
4.
自己紹介 • 「強い」ゲームAIについて研究 • 大富豪、カーリング (2年前のTensorflow勉強会で少し話しました) などのAIを作成 •
大富豪で「空場」(流れた後の自分から出せる場) でパスをした方がいい局面を解析する論文を出しました
5.
自己紹介 • 12種類のゲームのAI大会に参加 • 2017.6~2017.11 将棋
Ponanzaのディープラーニング部分を担当 • 現在は囲碁ウォーズ「棋神」を開発
6.
本日の内容 • ゲームAIという分野の過去、今 (AlphaZeroなど)、未来について •
自分が参加したPonanzaでTensorflowを使ってトライしたこと • Ponanza … 2017春にプロ棋士のトップ(佐藤名人)を倒したプログラム • AlphaZero ... 知識なしで囲碁、将棋、チェスで世界一になった Alpha Zeroの衝撃と技術的失業 (山本一成さんより)
7.
ゲームAIのこれまで(プログラマ視点) • 過去の強いプログラムの成り立ち • 「人手でのルールの記述」「機械学習モデル」がどちらも重要だった •
ルールの記述 … 将棋なら将棋盤、囲碁なら囲碁盤をどう実装するか • 機械学習モデル … ある局面の勝ちやすさや最善手の予測など、ルール から自明でないので機械学習等で構築する評価モデル
8.
ゲームAIのこれまで(プログラマ視点) • 「ルールの記述」が簡単ではないという例 • 将棋における右の局面(相手の手番) と金を動かして一手詰み(勝ち) •
全ての手を調べれば一手詰みの手が あるかわかるが、それでは遅いので 一手詰み計算専用のアルゴリズムが 書かれている • 金で王手のパターン、離れた飛車で王手の パターン…などの羅列、プログラマが頑張る
9.
現在のゲームAIの流れ • ① DQN
(2013) とその後継モデル ルールを記述することなくニューラルネットで一人ゲームをプレイ Human-level control through deep reinforcement learning (Mnih et al., 2015)
10.
現在のゲームAIの流れ • ②AlphaGoZero, AlphaZero ニューラルネットの最善手の予測と勝率の予測をベースに、 モンテカルロ木探索を使って予備知識や上級者の棋譜なしで0から学習 Mastering
Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm (Silver et al., 2017a, arxiv)
11.
現在のゲームAIの流れ • ③Libratus, DeepStack 不完全情報ゲームのポーカーにおいても人間を圧倒 両者全く違うアルゴリズムを使う
(DeepStackはニューラルネットを利用) DeepStackの アルゴリズム DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker (Moravčík et al., 2017)
12.
現在のゲームAIの流れ • 人間がコーディングする部分が減っている • ニューラルネットの表現能力が勝敗を分けることが増えている
13.
ボードゲームのニューラルネットへの入力 • 囲碁の盤面 ...
黒か白の2色 石がある場所に1、それ以外が0 = +
14.
ボードゲームのニューラルネットへの入力 • 将棋の盤面 ...
色数が多い 持ち駒などのスカラ値は1つの色全体に1を立てるなど = + +…
15.
AlphaZeroの作り(ニューラルネット) • 盤面の履歴 (8手分)を入力し、 最善手の予測
(policy) 勝率の予測 (value) を同時に行うニューラルネット • 複数の値を同時に出力するマルチタスク学習 Mastering the game of Go without human knowledge (Silver et al., 2017b)
16.
AlphaZeroの作り(モンテカルロ木探索) • サイコロを振って最後まで https://en.wikipedia.org/wiki /Monte_Carlo_tree_search (クラシックな)モンテカルロ木探索
17.
AlphaZeroの作り(モンテカルロ木探索) • ゲームのように閉じた環境においては、 先の状態を考えることでより質の高い行動決定ができる Silver et
al. (2017b) AlphaGo Zeroのモンテカルロ木探索
18.
AlphaZeroの強化学習アルゴリズム • 前提① AlphaZero =
「ニューラルネット」「探索(先読み)アルゴリズム」 • 前提② ニューラルネット単体でもプレーしたり勝ち負けを予測したりできるが、 先読みを行うともっと強くなる • 前提③ 質の高いニューラルネットがあれば、 より質の高い先読みが行えて強くなる
19.
AlphaZeroの強化学習アルゴリズム • 学習手順 探索ありで 試合棋譜を作成 棋譜の手/結果から 教師あり学習で ニューラルネットを学習 繰り返し Silver et
al. (2017b)
20.
AlphaZeroの強化学習アルゴリズム • 強さの向上の概念図 • まずランダムの状態での 勝ち負けを学び、それを使って 探索すれば少し強くなる •
探索の結果の手は ニューラルネットそのままより 強いので、それを教師とする • 強くなれば勝ち負けの評価も 妥当になり勝率予測も精度向上 棋譜から学習
21.
将棋PonanzaにおけるTensorflowの利用 • Ponanzaは大会出場する上位プログラムの中では 最も早くニューラルネットを実用化 (2017.5 世界コンピュータ将棋選手権での Ponanza
Chainer) 「手の予測」を行い、外部サーバで動かして通信 • その後ニューラルネット部分の担当が自分になり、 使用ライブラリがTensorflowに変更 • 勝率予測も一緒に学習 (AlphaZero と同じ) • Ponanza側のコードも書き換えて、 C++から直接Tensorflowを呼び出す Ponanza Chainer のNN Ponanza (Tensoflow) のNN
22.
将棋PonanzaにおけるTensorflowの利用 • AlphaZeroとの比較 (将棋ドメイン:
利用部分) AlphaZero Ponanza with Tensorflow ネットワーク入力 9 x 9 x 362 (7手前までの履歴) 9 x 9 x 86 (現局面のみ) ネットワーク構成 ResNet20ブロック(40層)? 256フィルタ CNN に工夫を加えたもの (PFNの方発案のアーキテクチャ) 12層 256フィルタ 学習方法 ゼロから探索ありの強化学習 過去のPonanzaの着手・評価・勝敗 1500万試合から教師あり学習 (着手の一致率 56% 弱) 製作使用リソース TPUv1 5000枚(対戦) v2 15枚(学習) elmo 超えまで 2h 弱 これまでさくらインターネットさんから お借りしたCPU等 最大数十台 (対戦) GPU1枚 (学習) 1ヶ月
23.
将棋PonanzaにおけるTensorflowの利用 • AlphaZeroとの比較 (将棋ドメイン) AlphaZero
Ponanza with Tensorflow 利用法 ニューラルネットだけで モンテカルロ木探索 既存の評価関数によるアンサンブル ミニマックス系探索 対戦利用リソース TPU v2 4枚 GPU GTX-1080 1枚 (第5回将棋電王トーナメント本番) 探索速度 40,000 局面 / 秒 (=ニューラルネットの計算回数) 6,000,000 局面 / 秒 (ニューラルネットの計算は 5,000 局面 / 秒)
24.
大人の知能と子どもの知能の融合 • 既存の探索部 (秒間
600万局面) … 理詰めで解決する 「大人の知能」 • ニューラルネット ... 計算局面数が少ないが、鋭い感性を持つ 「子供の知能」 • 大会に向けて、2つの「知能」をどう協調させるかを考えて製作した • (子どもだけに絞った方がいいのかもしれなかったが…)
25.
大人は慎重。子どもは素直 〜大人の知能と子どもの知能の融合〜 • 既存の探索は相対的な良し悪し しか見ていなかったり、 慎重な評価を返したりする • 一方ニューラルネットは 絶対評価かつ大胆に評価する (その分ブレやポカも多い) ニューラルネットの 予測勝率:
72 % (既存の探索+評価関数: 深さ1で59%, 深さ32で61%)
26.
大人はあれもこれも気になる。 子どもは大事なものが見える 〜大人の知能と子どもの知能の融合〜 • 既存の探索では、人間から見て「盤上この一手」の状態でも 丁寧に多くの手を調べていた • ニューラルネットは手の予測もはっきり物を言う ので、ニューラルネットの出した確率が低い手は そもそも探索しないようにできる ニューラルネットの 予測最前手:
2四同歩 over 99.99 %
27.
Ponanza with Tensorflow
の手法 (概略) • Policyの確率で探索順序決定 確率の和によって探索打ち切り判定 • 探索深さが増えると打ち切り閾値を大きくする • Valueの予測勝率と 探索の予測勝率を混ぜる (ただし元が相対評価なら相対評価として返す) • 探索深さが深ければそちらの重みを大きくする 95% 2% 3% 95 + 3 = 98% > 閾値 打ち切り! 探索 80 % NN 60% →70% 探索 < 80 % NN 70% → < 75 %
28.
Tensorflowにおける学習 • Ponanzaのコードは現在非公開ですが、NN部分で元になったコードが 自分のリポジトリにあります。 https://github.com/YuriCat/apery/tree/nn/python • ビッグデータからの学習…NNの入力画像を保存すると物凄い容量になる ①棋譜など最小の情報を持った状態で保存 ②C++側に入力画像行列作成コードを書く ③pybind11でpythonから学習時に呼び出して入力画像・教師値を得る のが良かった
29.
現在のゲームAI開発事情 • 計算資源をどう確保するかの問題 • 有志の計算資源を募ることが行われている 平岡拓也氏の
Apery (将棋) https://github.com/HiraokaTakuya/apery-machine-learning Gian-Carlo Pascutto 氏の LeelaZero (囲碁) https://github.com/gcp/leela-zero
30.
未来の(ゲームAI)アーティストに向けて ・勝ち負け以外の評価による学習 (好奇心だけで行動するマリオ) など、 人間のように「未知の事柄を知るためにどう行動するか」という側面から研究が進 んでいる Curiosity-driven Exploration
by Self-supervised Prediction (Pathak et al., 2017)
31.
未来の(ゲームAI)アーティストに向けて ・「ゲームのAIを書く」ことがゲームAI開発のメインではなくなっていく ・できる限り人間はコードを書かない姿勢 (「詰みを絶対に逃したくない」など書かざるを得ない場合もあるが、 細かい最適化に留まらずに常に広い視野を持って欲しい) ・複数のドメインを扱う強化学習(マルチタスク) ・自然言語処理、画像や動画の自由な入力(マルチモーダル)
32.
未来の(ゲームAI)アーティストに向けて シンギュラリティを起こしましょう! Alpha Zeroの衝撃と技術的失業 より
Download