[DL輪読会]Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data

[DL輪読会]
Semi-Supervised Knowledge
Transfer For Deep Learning
From Private Training Data
岩澤有祐

書誌情報
• ICLR2017 oral accepted
• Rating: 9, 7, 9
• Nicolas Papernot, Martín Abadi, Úlfar Erlingsson, Ian Goodfellow, Kunal
Talwar
• 1st authorがGoogleでインターンしてた時の研究
• Niclas Papernotさんは敵対的事例の研究とかしてる⼈、現PhDコース
• 選定理由：
• DLを社会実装していく上で、プライバシー保護が重要になる気がしている
• プライバシー保護×DLの最新研究
• 差分プライバシーあまり理論的に詳しくないので間違いあったらすみません
• ご指摘お待ちしてます

余談：Best Paper Award?
https://www.papernot.fr/en/publications-awardsより抜粋

背景：プライバシーと機械学習
• 機械学習のいくつかの応⽤事例は、センシティブな学習データ
が⼤量に得られることを前提にしている
• 例：ユーザのとった写真
• 例：医療データ
• 例：DNA
• 理想的には機械学習モデルは個別のデータの特徴を残さないく
らいに汎化されていることが望ましい
• が、⼀般にその保証はない

背景知識：
プライバシー保護データマイニング
• このようなセンシティブなデータを扱う上での研究領域に
プライバシー保護データマイニングと呼ばれる領域がある
• K匿名化、L多様性、T近接性：データ⾃体の匿名度合いを評価
• 差分プライバシー：ランダム化アルゴリズムの性能を評価
• 秘密計算：データを渡さずに統計処理だけ⾏う
• 詳しくは中川先⽣や佐久間先⽣の教科書が勉強になります
• 中川先⽣の説明はSlideshareにもよくあがってます
• 本研究もこのプライバシー保護データマイニングと呼ばれる
領域の研究の1つ

プライバシー保護の重要性実世界でのプライバシー保護
Apple @WWDC 2016

本論⽂の内容
Title：“Semi-Supervised Knowledge Transfer
For Deep Learning From Private Training Data”
① Deep Learningのための
② 知識転移と ③ 半教師あり学習を使った
④プライバシー保護⼿法の提案
• 差分プライバシー基準を使った評価で、SOTAな実験結果
• プライバシー保護の強さ-分類精度のトレードオフの観点
④
③ ②
①

Outlines
• 差分プライバシーとは
• 提案メカニズム
• 評価実験
• 関連研究・考察

Outlines
• 差分プライバシーとは
• 本当は下記とかの⽅が参考になると思います
• https://www.slideshare.net/kentarominami39/ss-64088396
• 提案メカニズム
• 評価実験
• 関連研究・考察

プライバシー保護度合いをどう図るか？
• データ⾃体の性質
• K匿名性[Sweeny, 2002]：⾃分と同じ属性を持つ⼈がK⼈以上
• 他にもl多様性やt近接性と⾔った基準
• アルゴリズムの性質
• 差分プライベート[Dwark, 2006]：あるメカニズムfの出⼒f(D)からど
のくらいDの情報が予想される可能性があるか？

差分プライバシー：
プライバシー保護度合いをどう図るか？
• 質問：「今⽇の発表は⾯⽩かったですか？」
• n⼈から0/1で回答Xiを得るとする
• ⾯⽩かった：１、⾯⽩くなかった：0
• 1と答えた⼈の数はf(D) = Σxi
• 普通の状況だと合計を得られてもある特定の⼈のプライバシー
が漏れることはなさそうだが、補助情報があると別
• 例：A君以外の全員のXを何らかの⽅法で⼿に⼊れる
• 補助情報がある場合のプライバシー保護度合いを測れるか？

差分プライバシーの考え⽅
• オリジナルなデータベースD = {0, 1, 0, 0, 0, 1}を考える
• この時、1つだけ結果を変えたデータベースDʼ={0, 0, 0, 0, 0, 1}
を考える
• この時f(D)とf(Dʼ)を⾒た敵対者がその差に気づけなければ
プライバシーは守られていると解釈する
• =>ノイズを加える（正確に8⼈でなく10⼈くらいと答える）
• ※このノイズを付与する仕組みをメカニズムMという
• M(D) = f(D) + noise

差分プライベート：定義
※δ=0の場合ε-差分プライベートと呼ぶ
D ∈ Nm, Dʼ ∈ Nmとする．SをM(D)が取りうる
範囲とする．この時、∀Sおよび∀D,Dʼに対し
てメカニズムMが次を満たす時Mは(ε, δ)-差
分プライベートであるという
Pr[M(D) ∈ S] ≦ eε Pr[M(Dʼ) ∈ S ] + δ
定義

差分プライベート：解釈
Pr[M(D) ∈ S] ≦ eε Pr[M(Dʼ) ∈ S ]
を式変形すると
e-ε ≦ Pr[M(D) ∈ S] /Pr[M(Dʼ) ∈ S ] ≦ eε
解釈：ε-差分プライベート
密度⽐
※密度がeε以下（このくらい近い分布）ならよい
※ε > 0、εが0に近いほど分布が近くなければダメ
（つまりタイトな保証になる）

差分プライバシー：ラプラスメカニズム
• (ε, δ)-差分プライベートなメカニズムMをどのように選ぶか？
の代表的なメカニズムにラプラスメカニズムがある
• M = f(D) + Lap(b)
• ※Lap(b)は平均0、分散が2b2のラプラス分布
• Lap(x|b) = 1/2b exp[-[x]/d]
• Lap(Δf/ε)から⽣成されたノイズを利⽤する
メカニズムはε-差分プライベート
• ※Δfは今は1だと思ってください
• 詳しくは中川先⽣の教科書参照

プライバシー保護とデータ価値
• プライバシー保護を強くすると、データの価値が失われうる
• 例えば、ラプラスメカニズムはε-差分プライベートなので、
εを⼩さくすればするほどプライバシー保護の保証はタイトに
なる
• しかし、ノイズの分散が⼤きくなるので、元の結果f(D)を⼤き
く変えてしまう可能性がある
• プライバシー保護と、データ価値のバランスを取るメカニズム
が必要

提案メカニズム（PATE）の概要
• PHASE1：分割された訓練データ（プライベートなもの）でn個の教
師を学習
• PHASE2：プライベートでない教師なしデータにn個の教師による予
測結果を使ってラベル付けし、⽣徒を学習=>このモデルを公開
PHASE1：Ensemble PHASE2：Knowledge Transfer

直感的理解
• プライベートなデータは最終的に公開されるデータの訓練には⼀切
利⽤されない=>訓練データが漏れる危険は低い
• 唯⼀の情報経路は、n個の教師の予測結果
• ここからの情報漏れをどのように防ぐか？
PHASE1 PHASE2

Noisy Aggregation
• あるxに対する教師f(x)を多数決 + ノイズで決める
• 理由
• 単に多数決にすると、特定の1つの教師の投票に影響されうる
(相対的に、１つの教師が何に訓練されたかに影響されやすい）
• γを⼤きくすれば、特定の1つの教師の投票に影響されなくなる
• Lapを⼊れた場合のプライバシーコストについては3章に議論がある
（興味ある⽅はご参考ください）

単純にアンサンブル教師を公開はダメ？
• 出⼒にノイズをかければ安全では？ => NO
1. ⼤量の教師なしデータに対する予測を⾏うと保証基準がどんどん⼤
きくなる（プライバシー保証が⽢くなる）
• cf. 合成定理
2. 教師のモデルパラメタが公開されてしまうと、その教師の
訓練に利⽤したデータの情報が漏れうる
• 2の問題は教師ではなくそこから再学習（Knowledge
Transfer）した⽣徒を公開することで解決できる．1はどうす
るか？

PATE-G：GANを利⽤した半教師あり学習
• アンサンブルモデルに対するQueryの回数を減らす
• 要は教師モデルを使った予測を⾏う回数をできるだけ減らす
• => GANによる半教師あり学習[Salimans, 2016]を利⽤
• 前提：Kクラスのカテゴリを分類したい時、GANにより⽣成された
サンプルを表すカテゴリを追加したK+1クラス分類を⾏う．この時、
• 教師付きデータについては、正しくいカテゴリに
• 教師なしデータについては、1̶Kままでのどれかのカテゴリに
• GANにより⽣成されたデータについてはK+1個⽬のクラスに
• 割り当てられるようにする
• 今のところMNISTとかでSOTA（だったはず）

提案メカニズムの具体的動き
• STEP1：プライベートなデータセットDをn個のサブ集合Diに
分割する（あるいはすでに分割されたデータを使う）
• STEP2：各Diでそれぞれ教師を訓練する
• STEP3：プライベートでない教師なしデータXの⼀部XʼにNoisy
Votingを使って教師Yʼを付与する
• STEP4：STEP3で得られた教師データと残った教師なしデータ
を使って⽣徒を訓練

実験概要
• 実験１：過去のSOTAとの⽐較
• 実験２：重要なパラメタに関するセンシティビティ
• データセット
• MNISTとSVHNを利⽤して検証
• 学習⽅法
• 訓練データをn個に分割して、n個の教師を作成
• テストデータの⼀部を⽣徒の学習に利⽤残りを評価
• 例：MNISTでは教師あり、教師なし、評価 = Queries, 9000-Queries, 1000

結果１：過去のSOTAとの⽐較
• 評価⽅法(ε,δ, P)
• (ε,δ)：差分プライバシー基準（⼩さいほど保護出来ている）
• P：正解率（＝得られたモデルの有⽤性）
• 結果
• MNIST [Abadi, 2016] (8, 10-5, 97%) -> (2.04, 10-5, 98%)
• SVHN [Shmatikov, 2015] (300,000, ??, 92%) -> (8.19, 10-6, 90.66%)
• δは書いてないけどたぶん同じなはず

実験２：
重要なパラメタに関するセンシティビティ
1. 教師の個数n
• 多ければ多いほど、⼤きなノイズγを加えられる
（投票の最⼤値と次点の差が⼤きくなるため⼤きなノイズを加えても
教師の結果が変わらない）
• ⼀⽅、⼤きくしすぎると各教師の学習が少数データで⾏われる様にな
る（=>結果、最終的な精度に影響が出る）
2. 教師付きデータの数
• ⼤量に使えば使うほど間接的に訓練データの情報が⽣徒に伝わる

結果２-1：教師の個数n
• n∈{10,100,250}
• γ∈[0.01, 1]
• nが⼤きいとノイズを⼤きくし
ても精度が落ちにくい
• どの程度⼤きければよいかは
ノイズの⼤きさやデータによる
※ちなみにn=250のときの教師の平均正解率は83.18%だそうです

分析：最⼤投票と2番⽬の差
• (最⼤投票数a - 最⼩投票数b )/ 総投票数n
• nを⼤きくしても60以上の差がある -> ノイズを⼤きくしても結果は
⼤きくは変わらない

結果２-2：教師付きデータの数
• Non-Private：普通に全教師ありデータで学習したモデル
• n=250, λ=20（各Queryごとのεが0.05）
• 結果
1. MNIST, SVHNでもcomparableな結果
2. Queriesを⼤きくした時の改善度合いはデータによる

関連研究：MLにおける差分プライバシ
• Shallow Model：⼤量のメカニズム
• [Erlingsson, 2014], [Bassily, 2014], [Chaudhuri, 2009], [Pathak, 2011],
[Song, 2014], [Wainwright, 2012]など
• Deep Model：
• [Shokri, 2015]：プライバシー保護SGD（保証がパラメタ数に応じてゆるく
なる）
• [Abadi, 2016]：noisy SGD（よりタイトなバウンドを持つ保証有り，MNIST
での⽐較対象）
• 提案：Ensemble of KnowledgeとSemi-Supervised =>SOTA
• ※従来法は教師なしデータを使うことを考慮していないことには注意

関連研究：Ensemble of Knowledge
• [Pathak, 2010]が類似タスクで初めて利⽤
• 複数のパーティが持つ学習モデルを信頼する第3者がどのように統合す
る化というタスク
• [Hamm, 2016]
• プライバシーの⽂脈で利⽤
• ただし、⽣徒モデルの構造に制限有り
• 提案：⽣徒の構造に依存しないより⼀般的な⼿法

関連研究：半教師ありのDPでの利⽤
• [Jagannthan, 2013]
• 決定⽊で半教師あり学習
• 決定⽊の構造をいじる形でプライバシーを保証している
• 提案：⽣徒の構造にも教師の構造にも依存しない
• 教師や⽣徒がDLでもうまく働く

まとめ
• 本論⽂では、Knowledge Aggregation and Transferの考えを発展さ
せた⼿法を提案
• Noisy VotingによるAggregation
• Semi-Supervised Learningによるタイトなプライバシー保護
• 利点1：
• どのような教師、⽣徒にも利⽤可能（DLでもOK）
• 利点2：
• 理論的保証がある + 直感的にもユーザのデータが使われない安⼼感
=>専⾨家にも⾮専⾨家にも納得感があるモデル

感想・レビュー内容など
• 差分プライバシーはあまりにも最悪評価なので、実⽤上そこまでやる必要
あるのか感は感じなくもない
• 何を守ってるのかが余り⾃明でない気がする（レビューもこの質問多かった）
• ある訓練データが学習時にあったかどうかを防ぎたいのがどういう場合かよくわか
らない．（あるユーザのスマホに⼊ってるある画像とかだとわからなくもない）
• が、理論的にも直感的にも説明できるのは実⽤上使いやすそう
• 訓練とテストのデータが同じ分布から来る仮定じゃないとうまく⾏かなそ
う（これはレビューにもあった）
• 実際にはプライベートなデータの分布と、プライベートでないデータの分布はかな
り異なるはず
• 著者らはドメイン適応とかと組み合わせる必要があると回答してるが、詳細は不明

提案メカニズムの基本的な考え⽅：
Ensemble and Knowledge Transfer
Jihun Hamm, et al.,
“Learning Privately from Multiparty Data”より抜粋

[DL輪読会]Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data

More Related Content

What's hot (20)

Similar to [DL輪読会]Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data (20)

More from Deep Learning JP (20)

Recently uploaded (12)

[DL輪読会]Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data