Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
『逆転オセロニア』におけるAI活⽤
〜ゲーム運⽤における取り組みとノウハウ〜
CEDEC 2018
August 24, 2018
Jun Okumura, Yu Kono
Ikki Tanaka, Takeshi Okada
AI System Dept.
DeNA Co., Ltd.
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
講師紹介
奥村 エルネスト 純
n 理学博⼠ [専⾨:観測的宇宙論]
n データアナリスト @DeNA 分析部
⁃ 『逆転オセロニア』リードアナリスト
• ⾏動ログ分析、パラメータデザイン
⁃ オートモーティブ事業:移動体分析
n AI研究開発エンジニア @DeNA AIシステム部
⁃ 機械学習を使ったゲームAI研究開発(チームリーダー)
⁃ 強化学習領域の案件創出・戦略策定
2
@pacocat
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
DeNAのAI組織について
3
n 各事業領域に対して、横断的にビジネス貢献を⽬指している
n 様々な技術領域においてAI案件の推進を⾏っている
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
DeNAのAI組織について
4
⼤切にしていること:サービス感
• エンドユーザーのメリットを意識する≒「AIのためのAI施策」にしない
• 現場に寄り添ってビジネス価値を⽣み出す
ゲーム事業におけるAI導⼊
• 「プレーヤー⽬線でメリットがあるか」が全て
• 運⽤チームと⼀体になってAI活⽤を推進する
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
AI開発メンバー
5
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
本講演の流れ
6
1 『逆転オセロニア』におけるAI開発の背景
• 『逆転オセロニア』のご紹介
• AI観点で解決できたら嬉しい課題について
検証しているAI技術のご紹介
• 技術ロードマップについて
• 4つの技術内容のご紹介
2
3
• プロジェクト観点で難しい点、嬉しい点
• ゲーム領域でのAI活⽤に際してやっておいた⽅がいいこと
今後に向けて
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
7
『逆転オセロニア』における
AI開発の背景
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
『逆転オセロニア』のご紹介
n オセロがベースの、シンプルだが奥深い戦略対戦ゲーム
⁃ ベースルールの分かりやすさ
⁃ 後半に「逆転」が巻き起こるゲームシステム
n 2016年2⽉のサービスイン後、継続的に成⻑※
⁃ 2018年8⽉ 2,100万ダウンロード突破
n 『コミュニティ』と⼀緒に創ってきたソーシャルゲーム
8
『逆転オセロニア』が実践した“コミュニティと共創するゲーム運営”
8⽉24⽇(⾦) 17:50 〜 18:50
会場:501
※ “⼀周年で爆発した「逆転オセロニア」における、ゲーム分析の貢献事例” (CEDEC2017)
http://cedil.cesa.or.jp/cedil_sessions/view/1729
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
ゲーム内容のご紹介:デッキ・キャラクター
n 3,000以上のキャラクターから16駒を選択してデッキを編成
n キャラクターには攻撃⼒やスキルが備わっている
9
ステータス
(HP、攻撃⼒…)
キャラクター固有
のスキル
3,000以上の選択肢から
16個の駒を選択
デッキによって様々な戦略のバリエーションが⽣まれる
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
ゲーム内容のご紹介:デッキ・キャラクター
n 新しいキャラクターが追加されることで遊びが多様になる
⁃ 週に2,3体のキャラクターが追加される
⁃ 新しいスキルは2,3ヶ⽉に1度リリースされる
10
ゲーム環境や遊びは常に新しくなっていく
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
ゲーム内容のご紹介:バトルシステム
11
n 基本ルールは、盤⾯が6×6のオセロ
n 駒を置くと攻撃⼒やスキルに応じて相⼿にダメージが与えられる
n 相⼿のHPを先に0にしたら勝利
相⼿のHPを削りきると
勝利
特定の条件を満たすと
スキルが発動できる
局⾯に応じて、駒の運⽤を戦略的に考える必要がある
⼿駒はランダムに
選択される
特殊な効果をもたらす
マスが存在する
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
AI観点で検討にあがった課題
12
1. プレイヤーのサポート
⁃ デッキや⽴ち回り⽅には様々なバリエーションがあり、
ゲームプレイ初期は複雑に感じられる場合がある
⁃ 戦略やデッキ構築の幅を知ってもらうことで、
⾃分なりの遊び⽅を⾒つけつ楽しさを感じて欲しい
2. バランス調整のサポート
⁃ 意図しないバランスはゲーム体験を毀損してしまう
⁃ 新キャラクターをプランナーの意図したバランスで出したい
⁃ ゲームバランスを可視化してモニタリングしたい
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
運⽤課題とAI技術をどう結びつけるか
13
n 解決したい運⽤課題はたくさんあり、対応が続いている
n AI活⽤のトライができそうな課題を以下の観点で整理した
1. プレイヤーにとってネガティブな影響が⼤きいもの
2. 運営上の負担(⼯数・コスト)がかかっているもの
3. 技術的にAI開発の⾒通しが⽴つもの
4. ⼗分なデータやAIの学習環境があるもの
5. 将来のゲーム運⽤を考え着⼿した⽅がいいもの
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
AI研究開発のプロセス
14
1. 各ユースケースに対して、まずは概念検証を⾏う
2. 実現可能性が⾒えてきたものから仕様検討・実装に進む
ユースケース
検討
データ収集
学習環境構築
プロトタイプ
検証
仕様検討 実装
検証を繰り返して確度を⾼める
効果が確認できたものから
本格的な検討に進む
運⽤
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
ここまでのまとめ
15
n 『逆転オセロニア』で解決したい課題に対して、
(AIに限らず)様々な対応が進んでいる
n AI観点で解決できそうな課題を整理した
n それぞれのケースに合わせて検証に着⼿しており、
徐々に実現の確度を⾼めている
ここから、具体的に検証しているAI技術について解説を⾏います
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
16
検証している
AI技術のご紹介
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
技術ロードマップ
17
要件※ • ⼈間が作るようなデッキ構築ができること
• ⼈間のように対戦ができること
1. プレイヤーのサポート
⁃ プレイヤーのようにデッキ構築や対戦ができるAIによって
サポートコンテンツは作れるか
⁃ 実際このようなAIがあれば、他にも応⽤可能性が広がる
必要なもの
• 使⽤デッキのデータ
• 対戦時の棋譜(詳細なバトルデータ)
技術領域
• アソシエーション分析
• 深層学習を使った戦略学習
※実際はより詳細な要件や評価の基準を設定します
(ここでは簡単のため、詳細な定義には触れません)
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
技術ロードマップ
18
• デッキトレンドが解釈可能な形で可視化できる
• 新しいキャラクターの運⽤を学習できる
2. バランス調整のサポート
⁃ ゲーム内環境(ここではデッキトレンド)は可視化できるか
⁃ リリース前の新キャラクターをある程度使えるAIはできるか
• 使⽤デッキのデータ
• AIの学習環境(シミュレータ)
• クラスタリング分析
• 強化学習を使った⾃律的な学習
要件※
必要なもの
技術領域
※実際はより詳細な要件や評価の基準を設定します
(ここでは簡単のため、詳細な定義には触れません)
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
本講演でご紹介する技術
19
1. デッキのアソシエーション分析
⁃ デッキ内のキャラクター関係を学習することで
デッキ構築ができるAIを作成
2. デッキのクラスタリング分析
⁃ 利⽤デッキの解析から、ゲーム環境のトレンドを分析
3. 深層学習を使った戦略の学習
⁃ プレイヤーの棋譜から、複雑な戦略を学習
4. 強化学習
⁃ 試⾏錯誤を繰り返すことで、⾃律的にキャラクターの
運⽤⽅法を学習
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
本講演でご紹介する技術
20
1. デッキのアソシエーション分析
⁃ デッキ内のキャラクター関係を学習することで
デッキ構築ができるAIを作成
2. デッキのクラスタリング分析
⁃ 利⽤デッキの解析から、ゲーム環境のトレンドを分析
3. 深層学習を使った戦略の学習
⁃ プレイヤーの棋譜から、複雑な戦略を学習
4. 強化学習
⁃ 試⾏錯誤を繰り返すことで、⾃律的にキャラクターの
運⽤⽅法を学習
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
1.デッキのアソシエーション分析
21
⼤規模
デッキ
ログ
キャラAを使っていたら
キャラBも使っている確率80%
キャラX, Yを使っていたら
キャラZも使っている確率30%
・・・
アソシエーションルール
アソシエーション分析
⼤規模データに存在する関係性を抽出する分析⼿法
• 関係性は”アソシエーションルール”と呼ばれる
• 例:キャラAを使っていたらキャラBを使う確率は○%
アソシエーション分析とは?
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
デッキのアソシエーションルール
22
n デッキを分析することで、キャラクターの関係性が分かる
⁃ 関係性は3つの指標で定量化できる
ルール ⽀持度 信頼度 リフト
弁財天 → シーラーザード 5% 50% 2.0
麒麟 → シーラーザード 25% 40% 1.5
ウケモチ → シーラーザード 20% 45% 2.1
ラヴーシュカ → アルキメデス 5% 30% 2.0
デメテル → シーラーザード 55% 60% 2.3
… … … …
※ 実際の分析結果ではなくイメージです
キャラクターの関係性
関係性の指標条件部 結論部
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
分析結果から分かること
23
指標 値が⼤きいと… 例
⽀持度 よくある組み合わせ
信頼度
条件時に結論部が
⽣じやすい
リフト
ルールの有効性が強い
(1より⼤きい時)
蘭陵王 アズリエル
このルールが
全デッキ中90%
使われている
蘭陵王を
デッキで
使っている
アズリエル
を90%の
確率で使う
と
蘭陵王
の使⽤
アズリエル
の使⽤
はお互いに
依存関係が強く
有効なルール
n 関係性を定量化する3つの指標(⽀持度・信頼度・リフト)
※ 実際の分析結果ではなくイメージです
×
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
分析結果から分かること:⽀持度
24
n ルールが発⽣する確率
⁃ ⼤きいほどみんなが使っている組み合わせを表す
ルール ⽀持度 信頼度 リフト
弁財天 → シーラーザード 5% 50% 2.0
麒麟 → シーラーザード 25% 40% 1.5
ウケモチ → シーラーザード 20% 45% 2.1
ラヴーシュカ → アルキメデス 5% 30% 2.0
デメテル → シーラーザード 55% 60% 2.3
… … … …
※ 実際の分析結果ではなくイメージです
みんなが使っているパターン
⼀部のプレイヤーが使っているパターン
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
分析結果から分かること:信頼度
25
n A→Bのルールに対して、条件Aだった時にBとなる確率
ルール ⽀持度 信頼度 リフト
弁財天 → シーラーザード 5% 50% 2.0
麒麟 → シーラーザード 25% 40% 1.5
ウケモチ → シーラーザード 20% 45% 2.1
ラヴーシュカ → アルキメデス 5% 30% 2.0
デメテル → シーラーザード 55% 60% 2.3
… … … …
※ 実際の分析結果ではなくイメージです
弁財天を使う時にシーラザードを
使う確率が50%
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
分析結果から分かること:リフト
26
n ルールが有⽤かどうかを表す指標
⁃ 値が1より⼤きいとお互いの関係性が強いルール
ルール ⽀持度 信頼度 リフト
弁財天 → シーラーザード 5% 50% 2.0
麒麟 → シーラーザード 25% 40% 1.5
ウケモチ → シーラーザード 20% 45% 2.1
ラヴーシュカ → アルキメデス 5% 30% 2.0
デメテル → シーラーザード 55% 60% 2.3
… … … …
※ 実際の分析結果ではなくイメージです
みんなが使っておりかつ有⽤な
ルール(トレンド)
⽀持度が低いため、
⼀部のプレイヤーには有⽤なルール
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
これまでの結果
27
n 抽出されたキャラクターの関係性からデッキ構築AIを検証
⁃ キャラAを持っている場合に他に使うといいキャラを
定量的に評価できる
⁃ 納得感のある結果が出始めている
n 実際にプレイヤーにとっていいケースにできるか検討中
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
本講演でご紹介する技術
28
1. デッキのアソシエーション分析
⁃ デッキ内のキャラクター関係を学習することで
デッキ構築ができるAIを作成
2. デッキのクラスタリング分析
⁃ 利⽤デッキの解析から、ゲーム環境のトレンドを分析
3. 深層学習を使った戦略の学習
⁃ プレイヤーの棋譜から、複雑な戦略を学習
4. 強化学習
⁃ 試⾏錯誤を繰り返すことで、⾃律的にキャラクターの
運⽤⽅法を学習
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
デッキのクラスタリング分析
29
データの中から特徴的なパターンをグルーピングする⼿法
• データ同⼠の近さ(類似度)を測ることでグループに分類
• 代表的⼿法:k-means法、階層型クラスタリング
クラスタリング分析とは?
3
1
2
4
5
6
3
1
2
4
5
6
様々な使⽤デッキ 似たようなデッキをまとめる
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
デッキ同⼠の近さ
デッキパターンA = { , , , , , …}
デッキパターンB = { , , , , , …}
デッキパターンC = { , , , , , …}
30
n デッキを分類するために、距離の定義が必要
デッキAは、デッキBとデッキCのどちらに似ているか?
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
デッキ同⼠の近さ
31
n 今回は、デッキ(キャラクターの集合)同⼠の距離として、
Jaccard類似度とよばれる指標を利⽤
n Jaccard類似度とは?
⁃ 集合Aの集合Bの近さを表す指標
⁃ 近ているものは1、似ていないものは0に近づく
重なりが多いほど似ている
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
デッキ同⼠の近さ
デッキパターンA = { , , , , }
デッキパターンB = { , , , , }
デッキパターンC = { , , , , }
32
Jaccard類似度
デッキAはデッキCよりも
デッキBに似ている
これらの技術を使うことでデッキをクラスタリングできる
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
クラスタリング分析の結果
33
n デッキの集まりを低次元で可視化することが出来る
⁃ ⾊はデッキのパターンを表す
3次元の場合
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
クラスタリング分析の結果
34
n デッキの集まりを低次元で可視化することが出来る
⁃ ⾊はデッキのパターンを表す
2次元の場合
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
デッキのクラスタリングでできること
35※ 実際の分析結果ではなくイメージです
1. ゲーム環境の継続的なモニタリングができる
⁃ デッキの対戦使⽤率や編成率、…
⁃ 変化点の検出
トレンドを⼀⽬
で確認できる
A⽉ B⽉ C⽉
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
デッキのクラスタリングでできること
36※ 実際の分析結果ではなくイメージです
2. デッキ同⼠の相性のモニタリング
⁃ 勝率や対戦数を集計して意図しない偏りがないか確認できる
先⾏/後攻
デッキ
定番キャラ 回復
特殊ダメー
ジ
蘭陵王 ローラン
定番キャラ 50% 45% 55% 50% 45%
回復 60% 50% 40% 60% 95%
特殊ダメージ 55% 40% 50% 45% 45%
蘭陵王 20% 55% 50% 50% 55%
ローラン 50% 90% 35% 70% 50%
キャラクターパターン同⼠の対戦表(勝率)
低いのはなぜ?
対戦を分析しよう
特殊な戦術
が存在?
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
デッキ分析のまとめ
Ø 分析したい条件
でデッキを抽出
37
n アソシエーション分析とクラスタリング分析を検証した
⁃ 納得感のある結果が得られている
n プレイヤーにしっかりメリットがあるケースになるか検討中
⁃ より細かい企画要件のチューニング・評価
対戦
ログ
対戦デッキ抽出 アソシエーション分析 クラスタリング
デ
ッ
キ
Ø キャラクターの
関係性を抽出
Ø デッキのグルーピング
Ø 分析結果として利⽤
デッキ分析の全体フロー
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
本講演でご紹介する技術
38
1. デッキのアソシエーション分析
⁃ デッキ内のキャラクター関係を学習することで
デッキ構築ができるAIを作成
2. デッキのクラスタリング分析
⁃ 利⽤デッキの解析から、ゲーム環境のトレンドを分析
3. 深層学習を使った戦略の学習
⁃ プレイヤーの棋譜から、複雑な戦略を学習
4. 強化学習
⁃ 試⾏錯誤を繰り返すことで、⾃律的にキャラクターの
運⽤⽅法を学習
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
2.深層学習を使った戦略の学習
39
盤⾯から正解の打ち⼿を出⼒するモデルを作る
• 上位プレイヤーの打ち⼿を正解データとして使う
• モデルは表現⼒の⾼いニューラルネットワークを⽤いる
AIはどのように学習するか?
盤⾯ ⼊⼒
(特徴量)
ニューラル
ネットワーク
AIモデル
駒Aを
マス(2,4)に
AIの推論
プレイヤーの打ち⼿と⽐較して
モデルを訓練
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
学習に使うデータと特徴量
40
n 上位プレイヤーの対戦棋譜を使って学習
n ⼊⼒データ(特徴量)
① ステータス
• 最⼤HP、残HP、ターン数、…
② ⼿駒/デッキ情報
• 駒情報(攻撃⼒、スキル、…)、リーダー駒
③ 選択可能な⾏動
• 駒 × マス情報
④ 盤⾯情報
• ⽩⿊駒の配置、特殊マス情報、罠の有無、…
n 出⼒データ(教師データ)
⁃ プレイヤーが置いたかどうかの⼆値変数
①
②
④
③
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
学習モデル
41
n 深層強化学習アルゴリズムであるDQN※1に着想を得た構造
⁃ 盤⾯は畳み込みニューラルネットワーク(CNN※2)で処理
盤⾯情報
ステータス
⼿駒
デッキ
⾏動 全
結
合
層
CNN
全
結
合
層
全
結
合
層
⾏動の評価値
⼊⼒(特徴量) ニューラルネットワーク
出⼒
※1 Deep Q-Network
※2 Convolutional neural network
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
学習の結果
42
n 既存のNPC※1に対して⾼い勝率が出せている
⁃ 定番17デッキの同デッキ対戦で平均90%以上の勝率
⻯(試)
神(試)
魔(試)
⻯2(定)
⻯1(定)
⻯3(定)
魔2(定)
魔1(定)
魔3(定)
神2(定)
神3(定)
神1(定)
混2(定)
混1(定)
混3(定)
全2(定)
全1(定)
AI
既存NPC
勝率(%)
※ Non-player character
※ 1,000対戦による検証結果
※ 実際のデッキ相性を表現するものではありません
⻘いほど
強い
⻯(試)
神(試)
魔(試)
⻯2(定)
⻯1(定)
⻯3(定)
魔2(定)
魔1(定)
魔3(定)
神2(定)
神3(定)
神1(定)
混2(定)
混1(定)
混3(定)
全2(定)
全1(定)
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
深層学習を⽤いた戦略学習の利点と難しい点
43
n 利点
⁃ 表現⼒があるため、複雑で抽象的な意思決定も
学習することができる
⁃ 実際、オセロニアのような抽象度が⾼いゲームでも
⼀定の成績を出せることが確認できている
n 難しい点
⁃ モデルが複雑なためチューニングが難しい
⁃ 推論に計算リソースを使うため実運⽤上の制約になる
⁃ モデルを更新するスケジュールなど、
運⽤フローとして検討事項が多い
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
参考:Webツールを活⽤したチューニング
44
n 対戦を可視化するツールを作成しチューニングを効率化
⁃ AIがどのような戦術で戦っているのか確認できる
⁃ 勝率だけでは⾒えてこないAIの強さ・考え⽅がわかる
⾏動の評価値
どこに置くか?
何ターン⽬にどのくらい
ダメージを与えたか?
各ターンに取った
⾏動の結果
※ 画⾯上のデータは全て開発環境のものです
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
参考:Webツールを活⽤したチューニング
45
n 統計量を可視化してAIの⼈間らしさを検証
⁃ ⼈間プレイヤーの取った⾏動とどれだけ似ているか?
⁃ 駒を適切に運⽤できているか?
※ 画⾯上のデータは全て開発環境のものです
AIが置いたマスの
ヒートマップ
ターン分布を
AIと⼈間で⽐較
⼈間が置いたマスの
ヒートマップ
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
参考:設定と⼯夫点
46
n 選択/⾮選択を教師信号として採⽤
⁃ ⼈間のようにプレイするAIを獲得したいから
⁃ 上位プレイヤーの負けた情報も有効活⽤している
n ネットワーク・学習の詳細
⁃ Batch Normalizationは有効、Dropoutは弱め
⁃ 活性化関数:ELU(ReLU※よりも有効だった)
⁃ 損失関数:Cross Entropy
n ⼤量の棋譜があるためデータ読み込みを効率化
⁃ 並列化、キューなどを駆使した⾼速化
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
本講演でご紹介する技術
47
1. デッキのアソシエーション分析
⁃ デッキ内のキャラクター関係を学習することで
デッキ構築ができるAIを作成
2. デッキのクラスタリング分析
⁃ 利⽤デッキの解析から、ゲーム環境のトレンドを分析
3. 深層学習を使った戦略の学習
⁃ プレイヤーの棋譜から、複雑な戦略を学習
4. 強化学習
⁃ 試⾏錯誤を繰り返すことで、⾃律的にキャラクターの
運⽤⽅法を学習
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
強化学習
48
環境
(ゲームのシミュレータ)
① 現在の盤⾯を観測
② 勝率が⾼くなりそうな⾏動を選択
③ ⾏動の結果と報酬を観測
…
試⾏錯誤を通じて、⽬的とする利益を最⼤化するための
戦略(⾏動系列)を獲得する機械学習の⼿法
• 未知の環境(新しいキャラクター)に対しても学習が可能
強化学習とは?
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
強化学習とゲーム
49
n 近年の強化学習技術の進展で、様々なゲームで
⾼いパフォーマンスを出す研究が報告されている※1
“Playing Atari with Deep Reinforcement Learning”,
Mnih et al., NIPS Deep Learning Workshop 2013
https://arxiv.org/pdf/1312.5602.pdf
“Mastering the game of Go without human knowledge”
Silver et al., Nature 550, 354–359
https://www.nature.com/articles/nature24270.epdf
“StarCraft II: A New Challenge for Reinforcement Learning”,
Vinyals et al.
https://arxiv.org/pdf/1708.04782.pdf
レトロビデオゲーム
(Atari 2600)
ボードゲーム
(囲碁, 将棋, チェス, …)
MOBA※
(StarCraft II, DotA2)
※ Multiplayer Online Battle Arena
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
学習の仕組み
50
n ⾃⼰対戦を繰り返すことで徐々に成⻑
⁃ プレイヤーの棋譜は使わず、⾃⼰対戦の結果を使って
フィードバックを⾏う(⾃律的な学習)
⁃ プレイヤー棋譜による学習と同じネットワークを利⽤
AI
(学習対象)
AI同⼠がシミュレータを通じて対戦
AI
(対戦相⼿)
対戦結果をフィードバック
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
学習の仕組み
51
n 対戦相⼿の選び⽅が重要
⁃ 相⼿が弱いままだと学習が進まない
⁃ バリエーションを持たせないと局所解に落ちやすい
AI
(⾃分)
少し前の⾃分と戦うことで、学習が進む
AI
(過去のAI)
AI
(⾃分)
AI
(過去のAI)
AI
(⾃分)
AI
(過去のAI)
強さ
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
学習の結果
52
n ⾃⼰対戦によって学習できることが確認できた
n 今後より細かく対応したい課題
⁃ デッキ(≒戦略)によって学習にばらつきがある
⁃ 探索の強化による学習の効率化
対戦数
対NPC勝率
デッキA
デッキB
デッキC
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
強化学習の利点と難しい点
53
n 利点
⁃ 常に変わるゲーム環境や新しいキャラクターに対しても
適⽤可能なAIが作れる
• 初期の検証※で、学習が進むことを確認できている
n 難しい点
⁃ より強くするためには理論的なチャレンジがある
• 不完全情報:相⼿のデッキが⾒えない状況で戦う
• ⾮定常環境:デッキや戦略が変わると問題が変わる
• …
⁃ 学習に時間がかかる
• ⼤量の試⾏錯誤をするため、計算リソースを必要とする
※ Rainbow DQN, count-base探索, …(今後は⾼度な探索アルゴリズム・ゲーム理論を活⽤)
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
参考:表現学習
54
n 表現学習という技術を使ったアプローチが機能している
⁃ オセロニアのようにキャラクターが多いゲーム環境で有効
“Approximation of Value Function with Feature Representation Learning
to Deal with Extendable Action Space”
Yu Kono, Ikki Tanaka, Jun Ernesto Okumura
https://confit.atlas.jp/guide/event/jsai2018/subject/1Z3-02/tables
オセロニアのAI開発で得られた技術は第32回⼈⼯知能学会全国⼤会にて発表
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
参考:表現学習
55
1. キャラクターを低次元のベクトルで表現できる
⁃ 通常、キャラクター数に応じた⼤きさのベクトルが必要
⁃ モデルサイズ削減、学習速度向上が期待できる
2. 運⽤⽅法が似たキャラクターは同じような表現になる
⁃ フィニッシャーとして活躍、⾓に置くと活躍、など
埋め込み前 埋め込み後
1 0 0 … 0 0 0
0 1 0 … 0 0 0
キャラクター数分(約3,000)
-1.5 0.2 0.8 -0.3 1.1
-0.8 0.3 0.4 -0.1 0.5
数次元(固定)
…
…
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
参考:表現学習
n キャラ表現を2次元に削減しプロットした例※
⁃ 戦略に応じた表現が得られていることが分かる
n 低次元ベクトルを活⽤して、
教師あり学習・強化学習を効率化
56
特殊ダメージ
⻯
マス変換
罠毒
カウンター
アンデッド
召喚
回復
オーバー
ロード
吸
収
2枚
以上
2枚以上
※ AIの学習過程の図でゲーム戦略の完全な表現を保証するものではありません
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
ここまでのまとめ
57
n 解決したい課題に対しAI観点で技術を整理し検証している
⁃ プランナーのサポート
• デッキのアソシエーション分析
• 深層学習を使った戦略の学習
⁃ バランス調整の⽀援
• デッキのクラスタリング分析
• 強化学習
n 複数のケースで技術の有効性が確認できた
n プレイヤーにメリットのある施策になるか検討している
⁃ より詳細な企画要件の技術検証
⁃ 運⽤を⾒据えたシステムやフローの検証
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
58
今後に向けて
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
プロジェクト観点で難しいポイント
59
1. 学習環境をゼロベースで作る必要がある
⁃ AIの学習・評価のためにシミュレータが必要
⁃ 特に強化学習ではシミュレータ速度がボトルネックになる
2. 特徴量エンジニアリングが複雑
⁃ 盤⾯のスキル状態などタイトル固有の情報を扱うため、
深いドメイン知識が必要
3. ゲームの構造に応じたアルゴリズムの開発が必要
⁃ 最新研究を実装するだけでは上⼿くいかない
4. ユースケースの要件定義
⁃ 技術が検証できても、意味のある施策でなければならない
AI PM観点の知⾒は、今秋発売の書籍でも紹介予定です
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
AI活⽤を⾒越してやっておいた⽅がいいこと
60
1. 事前の学習環境(シミュレータ)の開発
⁃ バトルロジックのみを切り離しやすいゲーム実装、最適化
2. AIの学習を念頭に置いたログ設計
⁃ ゲーム分析のためのログ以外にも、AI⽤のログ設計が必要
3. 最新技術に追従する体制作り
⁃ アップデートが早い最新技術をキャッチアップして、
課題の理論的理解やチューニング知⾒を溜めていく必要
4. 現場との密なコミュニケーション
⁃ 課題を適切に定義、企画提案するためのサービス理解
⁃ ⼀緒にゴールを考える、期待値を常に共有する
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
まとめ
61
n 『逆転オセロニア』でどのようにAI活⽤が検討されているか、
プロセスや開発技術についてご紹介
⁃ チャレンジングな課題に対しても⼀定の成果が出ている
⁃ 今後はより実現に向けた検証を続けていく
n ゲーム開発・運⽤におけるAI活⽤は今後加速するはず
⁃ ゲーム開発・運⽤はより複雑化している
⁃ AI技術の進展によってゲーム領域でのケースも⽣まれてくる
⁃ ⼀⽅で、プロジェクト難易度は⾮常に⾼い
業界全体でAI技術の実⽤化を加速させるためにも
会社の枠を超えて知⾒発信・交流を続けたい
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
今後に向けて
62
Google Group: game-ai
https://goo.gl/4dVN2o
Slack: game-ai-ja
https://goo.gl/jqEgLf
n ゲーム×AIの議論の場を育てたい

CEDEC2018『逆転オセロニア』におけるAI活用