木と電話と選挙
Shota Yasui
Japan.R
2016/11/27
CausalTreeパッケージ
● Recursive Partitioning for Heterogeneous Causal Effects
● Susan AtheyとGuido Imbensの提案手法
● 機械学習のモデルを応用して、CATEを推定する。
○ 介入効果が別の要因で強弱がついているという想定
● 今回は機械学習の部分が決定木及びRandom Forestになっている。
GerberGreenImaiデータ
● Do Get-Out-the-Vote Calls Reduce Turnout? The Importance of Statistical
Methods for Field Experiments
● 上記の論文で使われたデータ
● Matchingパッケージの中に入ってる。
投票しましょう。
選挙前に投票を促す連絡を取る。
投票日の選択肢
この電話活動が投票率に影響があるのかを知りたい!
Phone Call who Voted or Notこんなデータセットになる
● 電話活動の対象になったか否か?
● どんな人か?
● 投票しに行ったか否か?
傾向スコアを利用する
● 電話活動がある程度対象を選んで行われていると考える。
● 電話された人とされてない人では、そもそも投票に行く確率が違う。
● これを補正して効果を推定する必要がある。
→傾向スコア(詳細は割愛)
PropensityScoreMatchingで推定する
● 電話の割り振りでPropensityScoreを出して、Matching。
平均的には5%投票率を押し上げる
電話の効果が、
性別や年齢や地域で違うんじゃないか?
これを推定しに行くお話
● Susan Atheyが提案しているCausal TreeとCausal Forestを使う。
○ Recursive Partitioning for Heterogeneous Causal Effects
○ Estimation and Inference of Heterogeneous Treatment Effects using Random Forests
● causalTreeパッケージとしてgithub上に公開されている。
○ https://github.com/susanathey/causalTree
● 決定木の学習方法を改良して unbiased estimatorを得ようという話。
決定木と大きく違う2点
● コスト関数のデザインが違う
○ 機械学習で考えると:投票行動での予測誤差の最小化
○ causalTree:電話の、投票行動に与える効果での予測誤差の最小化
■ あくまで最小化したい誤差の定義が変わったという認識 →アンサンブルもできちゃう
● 推定時のデータの使い方が違う
○ 普通の決定木:学習データで枝と葉の両方を学習する
○ 今回:学習データを分けておいて、枝と葉の学習には別々のデータを用いる。
PropensityTree(Forest)もあるよ
● 電話のケースのように、介入の割り振りに偏りが考えられるケースで使う。
● この場合には枝の学習時にコスト関数を別のものにする。
● この時のコスト関数は介入の割り振りに対する予測誤差になる。
propensityForestで推定する
● 可視化を前提として今回やるので、 PropensityForestで木の数を1にする。
● treatmentは電話を掛けたか否か PHN.C1
● 設定周りの意味合いは下の資料参照
○ https://github.com/susanathey/causalTree/blob/master/briefintro.pdf
結果
まだ可視化できる環境がない・・・想定されている使い方的にも作られないかもしれないが。。。
基本的なサマリ
● 年齢は若いほうが効果高い
○ 年齢が高い人のほうがそもそも投票率が高くて、それを押し上げるコストが高そう。
○ 投票所までの移動コストは年齢が高い人のほうがありそう。
● 地域によって効果が違う
○ 地域のID以外の詳細データがないので地域間で比較とかはできない。
○ 今回入ってない変数の影響とかが出てそう
効果予測器として使う
● PropensityForestでTree=5で学習する。
● テストデータで効果の予測をしてみる(predictを使う)
● 推定された効果の平均値は0.059
● 傾向スコアマッチングで出した結果と類似。
電話を掛ける対象を絞れる!
おしまい。

More Related Content

PDF
パターン認識と機械学習入門
PDF
計量経済学と 機械学習の交差点入り口 (公開用)
PDF
階層モデルの分散パラメータの事前分布について
PPTX
15分でわかる(範囲の)ベイズ統計学
PPTX
ようやく分かった!最尤推定とベイズ推定
PDF
3分でわかる多項分布とディリクレ分布
PPTX
5分でわかるベイズ確率
PDF
階層ベイズとWAIC
パターン認識と機械学習入門
計量経済学と 機械学習の交差点入り口 (公開用)
階層モデルの分散パラメータの事前分布について
15分でわかる(範囲の)ベイズ統計学
ようやく分かった!最尤推定とベイズ推定
3分でわかる多項分布とディリクレ分布
5分でわかるベイズ確率
階層ベイズとWAIC

What's hot (20)

PPTX
劣モジュラ最適化と機械学習1章
PDF
最適輸送の解き方
PPTX
勾配降下法の 最適化アルゴリズム
PDF
BlackBox モデルの説明性・解釈性技術の実装
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PDF
生存時間分析数理の基礎
PPTX
ベイズファクターとモデル選択
PDF
Stanの便利な事後処理関数
PDF
ベルヌーイ分布からベータ分布までを関係づける
PPTX
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
PDF
非ガウス性を利用した 因果構造探索
PDF
2 3.GLMの基礎
PPTX
ベイズ最適化によるハイパラーパラメータ探索
PDF
Stanコードの書き方 中級編
PDF
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
PDF
因果探索: 基本から最近の発展までを概説
PDF
Hyperoptとその周辺について
PPTX
劣微分
PPTX
心理学者のためのGlmm・階層ベイズ
PDF
PRML輪読#1
劣モジュラ最適化と機械学習1章
最適輸送の解き方
勾配降下法の 最適化アルゴリズム
BlackBox モデルの説明性・解釈性技術の実装
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
生存時間分析数理の基礎
ベイズファクターとモデル選択
Stanの便利な事後処理関数
ベルヌーイ分布からベータ分布までを関係づける
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
非ガウス性を利用した 因果構造探索
2 3.GLMの基礎
ベイズ最適化によるハイパラーパラメータ探索
Stanコードの書き方 中級編
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
因果探索: 基本から最近の発展までを概説
Hyperoptとその周辺について
劣微分
心理学者のためのGlmm・階層ベイズ
PRML輪読#1
Ad

Viewers also liked (12)

PPTX
20161127 doradora09 japanr2016_lt
PPTX
Tidyverseとは
PDF
高速・省メモリにlibsvm形式で ダンプする方法を研究してみた
PDF
統計的因果推論勉強会 第1回
PDF
Randomforestで高次元の変数重要度を見る #japanr LT
PPTX
てかLINEやってる? (Japan.R 2016 LT) #JapanR
PDF
傾向スコア:その概念とRによる実装
PDF
相関と因果について考える:統計的因果推論、その(不)可能性の中心
PDF
星野「調査観察データの統計科学」第3章
PDF
星野「調査観察データの統計科学」第1&2章
PDF
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
PDF
確実に良くするUI/UX設計
20161127 doradora09 japanr2016_lt
Tidyverseとは
高速・省メモリにlibsvm形式で ダンプする方法を研究してみた
統計的因果推論勉強会 第1回
Randomforestで高次元の変数重要度を見る #japanr LT
てかLINEやってる? (Japan.R 2016 LT) #JapanR
傾向スコア:その概念とRによる実装
相関と因果について考える:統計的因果推論、その(不)可能性の中心
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第1&2章
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
確実に良くするUI/UX設計
Ad

More from Shota Yasui (13)

PDF
L 05 bandit with causality-公開版
PDF
Contextual package
PDF
PaperFriday: The selective labels problem
PDF
TokyoR 20180421
PDF
何故あなたの機械学習はビジネスを改善出来ないのか?
PDF
Factorization machines with r
PDF
Estimating the effect of advertising with Machine learning
PPTX
Prml nn
PPTX
Xgboost for share
PPTX
重回帰分析で頑張る
PDF
Dynamic panel in tokyo r
PDF
Rで部屋探し For slide share
PDF
Salmon cycle
L 05 bandit with causality-公開版
Contextual package
PaperFriday: The selective labels problem
TokyoR 20180421
何故あなたの機械学習はビジネスを改善出来ないのか?
Factorization machines with r
Estimating the effect of advertising with Machine learning
Prml nn
Xgboost for share
重回帰分析で頑張る
Dynamic panel in tokyo r
Rで部屋探し For slide share
Salmon cycle

Recently uploaded (6)

PPTX
QlikTips_20250819_Qlik Automate Update.pptx
PDF
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
PDF
高所作業プラットフォーム業界の上位メーカーランキング2025:市場シェアと売上推移の分析レポート
PDF
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~
PDF
LEDビジョンレンタル市場規模の成長見通し:2031年には1934百万米ドルに到達へ
PPTX
20250819 Qlik Tips AI assistants (SQLアシスタントとデータモデルリレーションシップ)
QlikTips_20250819_Qlik Automate Update.pptx
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
高所作業プラットフォーム業界の上位メーカーランキング2025:市場シェアと売上推移の分析レポート
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~
LEDビジョンレンタル市場規模の成長見通し:2031年には1934百万米ドルに到達へ
20250819 Qlik Tips AI assistants (SQLアシスタントとデータモデルリレーションシップ)

木と電話と選挙(causalTree)