4
Most read
5
Most read
6
Most read
時系列パーソナル・データの
プライバシー
中川裕志
情報ネットワーク法学会第16回研究大会 発表資料
2016年10月13日 明治大学中野キャンパスにて
こういうテーマを考えた理由は
• 個人情報保護法改正
– 匿名加工情報
– 非識別個人情報
• 容易照合性が焦点
– 正確な(=実装可能な)技術的定義が与えられて
いない
– 法律としては正確な技術的定義がなくてもいいの
かもしれないが、業者さんたちは困らないか?
医療、購買、行動、移動の履歴は
時系列な個人データ
• このことの本質がともすれば見失われる
個人
識別子
疑似ID 対象データ
(時刻=1)
対象データ
(時刻=2)
… 対象データ
(時刻=T)
どんどん増え
る
仮名 なました
疑似ID
対象データ
(時刻=1)
対象データ
(時刻=2)
… 対象データ
(時刻=T)
仮名化 匿名化
対象データの変換
雑音加算、精度を粗く、間引き、シャッフル、分割
K-匿名化に関する誤解
• K-匿名化の本来の定義
– 同じ疑似IDのデータ主体がk人以上いるように疑
似IDの精度を粗くするような方法
• K-匿名化は、識別子、疑似IDよりはるかに長
大な対象データに適用するという誤解が蔓延
しているのではないか。。。
K-匿名化に関する誤解
• ちなみに個人情報保護法改正時の技術WG
– Suicaの乗降履歴データにK-匿名化を適用すると
– K=2でもデータ有用性は著しく低下すると報告
– このころから、妙なK-匿名化の誤解
• “対象データまで含めたK-匿名化の誤った拡張”
– がはじまったのかもしれない。
– 技術側も
• 仮名化
• 仮名を高い頻度で変更
• シャッフル
• サンプリング
– などの代替技術についてきちんと報告すべきであったのだ
– 言い訳:関連する技術コンテストの PWSCUP は昨年開始だし。
K-匿名化から離れてみましょう
• K-匿名化 を長大な対象データに直接適用す
ることが、
– データ有用性を酷く低下させる
– でも、依然として個人識別性が高い
• という状況を踏まえ
• K-匿名化・過剰適用を止めて、対象データの
匿名化に係わる技術の一端を紹介します
対象データの分割毎に仮名変更
仮名 なました
疑似ID
対象データ
(時刻=1)
対象データ
(時刻=2)
… 対象データ
(時刻=T)
A aa A1 A2 AT
B bb B1 B2 BT
C cc C1 C2 CT
D dd D1 D2 DT
仮名 なました
疑似ID
対象データ
(時刻=1)
対象データ
(時刻=2)
… 対象データ
(時刻=T)
A aa A1 A2 AT
B bb D1 D2 DT
C cc C1 C2 CT
D dd B1 B2 BT
仮名 なました
疑似ID
対象データ
(時刻=1)
対象データ
(時刻=2)
… 対象データ
(時刻=T)
A aa A2 A1 AT
B bb DT D1 D2
C cc C1 CT C2
D dd B1 BT B2
個人レコード
の入れ替え
(シャッフル)
対象データ
の時間入れ
替え
(シャッフル)
シャッフル
技術の現状
PWSCUP 2017から
• 匿名化加工は
– 仮名化
– 疑似IDのなまし
– 個人レコードのシャッフル
• などが主流。
• 有用性
– 元データとの個人の対象データ1個単位での絶対値
誤差の平均
– 個人単位での対象データの種類(購入物品)の集合
としての類似性: Jaccard係数
再識別
• 再識別
– シャッフルされて、仮名との対応がなくなってし
まった個人レコードを、元の仮名に連結する再識
別を行なう。
– 再識別側は、匿名化側がどういう処理をしている
かを知らない状況
– 匿名化されたデータベースにおいて、
(もとの仮名に連結できた人数)/(全人数)
=再識別率
技術の現状
PWSCUP 2017から
• 匿名化加工の結果有用性
– 絶対値誤差の平均(優勝チーム)  1%弱
– 集合の類似性:Jaccard係数(優勝チーム)  69%
– 安全性
– 攻撃者は疑似IDと対象データは保持
• 最大知識攻撃者(J. Domingo-Ferre)
– その上で、どれだけ個人レコードを再識別できるかを競った。
– 再識別率(優勝チーム)  22.5%
– 30%程度が参加15チームの中央値
– ちなみに優勝チームは、私の研究室のM1を中心にしたチームでした。
• 有用性を保ちたければプロの通常の技術レベルで30%は再識別
される。
30%再識別の意味
• 攻撃者が同じデータベースの個人レコード(擬似
IDと対象データ)を持っている場合
– 30%のデータ主体の個人レコードが再識別される。
• 個人識別子も持っていれば、30%の人の個人特定も可能。
• 1個人に限ってみれば、30%の確率で再識別される
– 攻撃者が同じデータベースを持っていないが、同じ対
象データを部分的に持っている場合
– 個人特定が成功する確率の最大値が30%
部分的な対象データからの再識別
• 時系列ではないが、順序に意味がある系列データ  ゲノム
データでの実験
• 攻撃者は30個のSNP(個人差を表す遺伝子の座位の値)と、
一般公開されているSNP間の相関(連鎖不均衡データ)を持
つ。
– r2という相関値が0.7以上の場合を利用
• 標的の人の相関のあるSNP30個の値を推定しようとする。
• 比較的簡単な機械学習[1]で80%の精度で推定できた。
– 高山、荒井、中川:匿名ゲノムデータベースに対する連鎖不均衡
を用いた脱匿名化攻撃の提案と評価:CSS2016
– [1] T. Chen. and C. Guestrin, “XGBoost: A Scalable Tree Boosting
System,” arXiv:1603.02754, 2016.
容易照合性
• 通常の情報処理技術を持つ者(あるいは企業)
• 通常の努力で、耐えられる時間内にできる
– 計算機資源は?スパコン、GPGPU?
– 高機能なソフトもWeb上を探せば入手可能
– ようするに、 from scratch で開発する能力がない技
術者でも、短期間でかなりの技能を発揮できる時代だ
前のスライドでも示したように
「容易」にできる処理のレベルがとても高く
30%の再識別、80%の対象データ値推定ができる。
K-匿名化に関する誤解
• Suicaの事件で、長大な乗降履歴データそのもののプラ
イバシー的な安全性についてきちんと議論してきたで
しょうか?
• 匿名化と再識別の現状の技術レベルについてはお話しした通
り。
• 部分的にデータを隠すような方法ですら相当危ないのも、ゲノ
ムの連鎖不均衡の実験結果で示した通り。
• ではそれ以外には検討すべき要因があるので
しょうか?
考慮不足が懸念される要因:1
• サンプリング
– 統計計算では有力とされる手法
– サンプリングしたデータの匿名化能力については研究成果あり[Li][Chaudhuri]
– 若干異なるデータベース対の区別のつきにくさがサンプル率が下がると上が
る
– この成果を匿名化でどう位置づけるかがほとんど聞こえてこない。
– オプト寺田さんのコメントでは、サンプリングはK-匿名化を使わずに一意再識
別を妨げる効果があるとのこと(第14分科会にて)
• [Li,Qardaji,Su2012] Ninghui Li, Wahbeh Qardaji, Dong Su: On Sampling, Anonymization,
and Differential Privacy: Or, k-Anonymization Meets Differential Privacy. Proceedings of
the 7th ACM Symposium on Information, Computer and Communications
Security(ASIACCS’12). Pages 32-33. 2012
• [Kamalika Chaudhuri, Nina Mishra : When Random Sampling Preserves Privacy. 26th
Annual International Cryptology Conference Santa Barbara, California, USA, August 20-24,
2006. Proceedings. pp.198-213 .]
考慮不足が懸念される要因:2
• 外部観察データ
– 対象データが購買、移動履歴、場合によっては医
療でも、その行動が外部観察された場合
• 匿名化されていても、特定の対象データと外部観察さ
れたデータが完全に一致することが分かると、個人を
再識別(特定)できてしまう。
– 観察は多くの場合、近親者によって行われてしま
うことも要注意
自己データの存在否定
• 匿名化は確率的に破られることが多い。
• そのとき、再識別されたデータが自分のデータではないという主張
– 自己データの存在否定の妥当性(Plausible Deniability)
• ができる状態にしてデータ主体の不利益を解消、軽減するという方
向性
 全く検討されていないのではないか?
 サンプリングは Plausible Deniabilityを確立するのに適した方法
– 法律、規則、ガイドラインの方向性自体の議論に絡むから、当事者は
触れたくないであろうとは思うが、
– 数理モデルは明らかになってきている
• J. Doming-Ferre(CSS2017招待講演など)
まとめ
• K-匿名化が本来の目的から逸れて、時系列データに適用
されるという困った状況である
• 時系列データの場合、仮名化、仮名変更、データ分割、
シャッフル、サンプリングなど多様は技術を考慮すべき。
• 当面は匿名加工情報をターゲットにした技術検討がされる
が、データ主体のリスク低減を念頭におくなら
 自己データ否認可能性Plausible Deniability)のような仕組
みを検討し、個人情報保護法のあり方自体を考え直す時
期が来る可能性が大きい。

More Related Content

PDF
差分プライバシーによる時系列データの扱い方
PDF
居場所を隠すために差分プライバシーを使おう
PPTX
差分プライバシーとは何か? (定義 & 解釈編)
PPTX
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
PDF
[DL輪読会]Semi-supervised Knowledge Transfer for Deep Learning from Private Trai...
PDF
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
PDF
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
PPTX
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
差分プライバシーによる時系列データの扱い方
居場所を隠すために差分プライバシーを使おう
差分プライバシーとは何か? (定義 & 解釈編)
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
[DL輪読会]Semi-supervised Knowledge Transfer for Deep Learning from Private Trai...
プライバシー保護のためのサンプリング、k-匿名化、そして差分プライバシー
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)

What's hot (20)

PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
PPTX
BigQuery Query Optimization クエリ高速化編
PPTX
効用最大化理論の観点から見る強化学習
PDF
Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -
PPTX
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
PDF
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
PPTX
MongoDBが遅いときの切り分け方法
PDF
はじめてのShiny
PDF
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
PDF
ノンパラベイズ入門の入門
PPTX
数式を使わないプライバシー保護技術
PDF
自然言語処理による議論マイニング
PPTX
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
PDF
機械学習と主成分分析
PPTX
[DL Hacks]tensorflow/privacy 使ってみた
PPTX
強化学習 DQNからPPOまで
PPTX
ポーカーAIの最新動向 20171031
PDF
マルチテナントのアプリケーション実装〜実践編〜
PPTX
データサイエンティスト向け性能問題対応の基礎
PDF
transformer解説~Chat-GPTの源流~
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
BigQuery Query Optimization クエリ高速化編
効用最大化理論の観点から見る強化学習
Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
MongoDBが遅いときの切り分け方法
はじめてのShiny
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
ノンパラベイズ入門の入門
数式を使わないプライバシー保護技術
自然言語処理による議論マイニング
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
機械学習と主成分分析
[DL Hacks]tensorflow/privacy 使ってみた
強化学習 DQNからPPOまで
ポーカーAIの最新動向 20171031
マルチテナントのアプリケーション実装〜実践編〜
データサイエンティスト向け性能問題対応の基礎
transformer解説~Chat-GPTの源流~
Ad

Viewers also liked (20)

PDF
パーソナル履歴データに対する匿名化と再識別:SCIS2017
PDF
シンギュラリティ以後
PPTX
データ利用における個人情報の保護
PDF
A Happy New Year 2016
PDF
2014人工知能学会大会および情報処理学会EIP研究会発表資料
PDF
k-匿名化が誘発する濡れ衣:解決編
PDF
Privacy Protectin Models and Defamation caused by k-anonymity
PPTX
匿名加工情報を使えないものか?(改訂版)
PPTX
未出現事象の出現確率
PPTX
Privacy Protection Technologies: Introductory Overview
PDF
Boundary Between Pseudonymity and Anonymity
PDF
匿名化の技術的俯瞰ー匿名加工情報の観点から
PDF
Problems in Technology to Use Anonymized Personal Data
PDF
差分プライベート最小二乗密度比推定
PDF
シンギュラリティ以前
PDF
プライバシー保護の法制と技術課題(2014年時点)
PPTX
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
PDF
巨人の勝率を上げたい (スクレイピングとデータ集計)
PDF
時系列の世界の時系列データ
PDF
クラシックな機械学習の入門 2.ベイズ統計に基づく推論
パーソナル履歴データに対する匿名化と再識別:SCIS2017
シンギュラリティ以後
データ利用における個人情報の保護
A Happy New Year 2016
2014人工知能学会大会および情報処理学会EIP研究会発表資料
k-匿名化が誘発する濡れ衣:解決編
Privacy Protectin Models and Defamation caused by k-anonymity
匿名加工情報を使えないものか?(改訂版)
未出現事象の出現確率
Privacy Protection Technologies: Introductory Overview
Boundary Between Pseudonymity and Anonymity
匿名化の技術的俯瞰ー匿名加工情報の観点から
Problems in Technology to Use Anonymized Personal Data
差分プライベート最小二乗密度比推定
シンギュラリティ以前
プライバシー保護の法制と技術課題(2014年時点)
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
巨人の勝率を上げたい (スクレイピングとデータ集計)
時系列の世界の時系列データ
クラシックな機械学習の入門 2.ベイズ統計に基づく推論
Ad

More from Hiroshi Nakagawa (20)

PDF
人工知能学会大会2020ーAI倫理とガバナンス
PDF
信頼できるAI評価リスト パーソナルAIエージェントへの適用例
PDF
NICT-nakagawa2019Feb12
PDF
情報ネットワーク法学会研究大会
PDF
最近のAI倫理指針からの考察
PDF
AI and Accountability
PDF
AI Forum-2019_Nakagawa
PDF
2019 3-9-nakagawa
PDF
CPDP2019 summary-report
PDF
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会
PDF
Ai e-accountability
PDF
自動運転と道路沿い情報インフラ
PDF
暗号化によるデータマイニングと個人情報保護
PDF
Defamation Caused by Anonymization
PDF
人工知能と社会
PDF
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演
PDF
情報ネットワーク法学会2017大会第8分科会発表資料
PPTX
AI社会論研究会
PDF
Social Effects by the Singularity -Pre-Singularity Era-
PPTX
情報検索における質問者の プライバシー保護 :Private Information Retrieval
人工知能学会大会2020ーAI倫理とガバナンス
信頼できるAI評価リスト パーソナルAIエージェントへの適用例
NICT-nakagawa2019Feb12
情報ネットワーク法学会研究大会
最近のAI倫理指針からの考察
AI and Accountability
AI Forum-2019_Nakagawa
2019 3-9-nakagawa
CPDP2019 summary-report
情報法制研究所 第5回情報法セミナー:人工知能倫理と法制度、社会
Ai e-accountability
自動運転と道路沿い情報インフラ
暗号化によるデータマイニングと個人情報保護
Defamation Caused by Anonymization
人工知能と社会
人工知能学会合同研究会2017-汎用人工知能研究会(SIG-AGI)招待講演
情報ネットワーク法学会2017大会第8分科会発表資料
AI社会論研究会
Social Effects by the Singularity -Pre-Singularity Era-
情報検索における質問者の プライバシー保護 :Private Information Retrieval

Recently uploaded (10)

PDF
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
PDF
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
PPTX
Vibe Codingを触って感じた現実について.pptx .
PPTX
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
PDF
20250823_IoTLT_vol126_kitazaki_v1___.pdf
PDF
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
PDF
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
PPTX
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
PDF
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
Vibe Codingを触って感じた現実について.pptx .
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
20250823_IoTLT_vol126_kitazaki_v1___.pdf
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回

時系列パーソナル・データの プライバシー