2
Most read
5
Most read
9
Most read
t-SNE(t分布型確率的近傍埋め込み法)
による高次元データの可視化について
令和6年5月16日
三和田 将人
1 概要
• t-SNE(t-Distributed Stochastic Neighbor Embedding):t分布型確率的近傍埋め
込み法)は、4次元以上の高次元データを2、3次元に落とし込むための次元削
減アルゴリズム。
• Geoffrey Hinton(ジェフリー・ヒントン)氏が2008年に開発した手法。
• 主成分分析(PCA)や多次元尺度構成法(MDS)法に比べ、「次元は異なるが類
似しているデータ」に対して低次元でも近くに分類できる。
@kenmatsu4(まつけん)氏, Qiita, "Variational Autoencoder徹底解説",
https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24, 2017.06
【Swiss Role構造】
1 概要(補足:t-SNEでSwiss roll構造を可視化したら?)
データ化学工学研究室(金子研究室)@明治大学 理工学部 応用化学科, "t-distributed
Stochastic Neighbor Embedding (t-SNE) ~データの可視化に特化した手法~",
https://datachemeng.com/tsne/ , (最終アクセス日:令和6年5月15日)
2 t-SNEの特徴
ポイント
• 高次元での距離分布を低次元でも(可能な限り)表現できるよう変換してい
る。
• 名前のとおり、「距離の推定」に(Studentの)t-分布を仮定している。
• 次元の高いデータの可視化に有効
そもそも、なぜ可視化は必要か?
• そのデータを生み出している、事象をより正確に理解する。
• 機械学習で用いるときに、適切なデータを選ぶため。
• 予測結果やモデルの逆解析の結果の議論
ブラックボックス状態で機械学習を使わないため。
3 詳細(1/4)
SNEについて(2002年にGeoffrey Hinton氏が開発)
• データ間の距離(Euclid距離)を条件付き確率として仮定
• SNEでは正規分布(Gaussian)に基づき確率的にデータの位置を推定
• Clowding問題(次元を落としたときにデータが混雑下してしまう)という欠点
がある。
t-SNE法について
以下の改良によってClowding問題を解消し、より可視化しやすくしている。
1. 損失関数の対称化と最小化
距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分け
やすくしている
2. Studentのt分布を仮定
正規分布に比べて裾野が高いので、Clowding問題を避けることができる
t-SNE法について
1. 損失関数の対称化と最小化
距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分けや
すくしている。
3 詳細(2/4)
C:損失関数
KL(~):KLダイバージェンス
2つの確率分布の違い
を数量化する関数
Pj|i: データ間の距離についての
条件付き確率
qj|i: 次元削減後のデータ間の距
離についての条件付き確率
C:損失関数
KL(~):KLダイバージェンス
2つの確率分布の違い
を数量化する関数
Pji: データ間の距離についての
同時確率
qji: 次元削減後のデータ間の距
離についての同時確率
t-SNE SNE
t-SNE法について
1. 損失関数の対称化と最小化
距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分けや
すくしている。
3 詳細(2/4)
C:損失関数
KL(~):KLダイバージェンス
2つの確率分布の違い
を数量化する関数
Pj|i: データ間の距離についての
条件付き確率
qj|i: 次元削減後のデータ間の距
離についての条件付き確率
C:損失関数
KL(~):KLダイバージェンス
2つの確率分布の違い
を数量化する関数
Pji: データ間の距離についての
同時確率
qji: 次元削減後のデータ間の距
離についての同時確率
t-SNE SNE
t-SNE法について
2. Studentのt分布を仮定(自由度:n=1)
正規分布に比べて裾野が高いので、Clowding問題を避けることができる
3 詳細(3/4)
3 詳細(4/4)
t-SNE法について
デメリット
1. 可視化以外では使えない。
次元圧縮で構造化されたデータを保持できない
2. 次元の呪いに弱い。
「特徴量が多い→より多くの入力データが必要→ノイズも多くなる」ことで、t-SNEで生成
されるクラスター(データの集まり)の構造が大きく変わる
3. 損失関数が非凸関数であるため、最適化が難しい
(非凸関数については、「最適化の数理—応用数理の視点, https://ocw.u-
tokyo.ac.jp/lecture_files/gf_06/7/notes/ja/07murota.pdf」を参考)
4 実際の使用例(1/2)
スマートフォンの慣性センサーログから人間の運動を分類する
• データソース
https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones
(データセットの説明)
• 慣性センサーログから得られたデータに信号処理などを施して用意された561
の特徴量から、6つの行動パターンを分類する。(n=5149)
precision recall
LAYING 1 1
STANDING 0.96 0.96
SITTING 0.96 0.96
WALKING 0.99 1
WALKING_UPSTAIRS 0.99 0.99
WALKING_DOWNSTAIRS 1 0.99
目的変数
特徴量の大まかな分類
• 身体加速度計(xyz軸ごと)
• 重力加速度計(xyz軸ごと)
• 加加速度(加速度の時間微分値)データ(3軸)
• 角運動量データ(3軸)
上記のそれぞれに対する周波数データ×
各種統計量(平均、絶対値、信号エントロピー等)
4 実際の使用例(1/2)
スマートフォンの慣性センサーログから人間の運動を分類する
• データソース
https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones
(データセットの説明)
• 慣性センサーログから得られたデータに信号処理などを施して用意された561
の特徴量から、6つの行動パターンを分類する。(n=5149)
precision recall
LAYING 1 1
STANDING 0.96 0.96
SITTING 0.96 0.96
WALKING 0.99 1
WALKING_UPSTAIRS 0.99 0.99
WALKING_DOWNSTAIRS 1 0.99
目的変数
4 実際の使用例(2/2)
(データセットの説明)
• 慣性センサーログから得られたデータに信号処理などを施して用意された561
の特徴量から、6つの行動パターンを分類する。(n=5149)
5 考察 precision recall f1-score support
LAYING 1 1 1 1016
STANDING 0.96 0.96 0.96 895
SITTING 0.96 0.96 0.96 926
WALKING 0.99 1 0.99 853
WALKING_UPSTAIRS 0.99 0.99 0.99 682
WALKING_DOWNSTAIRS 1 0.99 0.99 777
accuracy 0.98 5149
macro avg 0.98 0.98 0.98 5149
weighted avg 0.98 0.98 0.98 5149
「STANDING」と「SITTING」が重なって描画されている。
実際にSVCで分類モデルを作成し評価したところ、上
記の2つが特に検出できていなかった。
まとめ と これから
• t-SNEは高次元の特徴量データを2,3次元で描画するための次元削減アルゴリズム。
• これを用いることで、多くの特徴量で作成された学習モデルの出力結果の説明に説
得力を持たせることもできる。
• 2018年以降には、t-SNEの、「次元の呪い」や「描画にしか使えない」という欠点を克
服し、より可視化力を向上させた「UMAP(1)」及び「DensMAP(2)」という手法も開発さ
れている。
• 今回、高次元の特徴量の可視化という視点を得たので、次は上記の手法について研
究したい。
1. Leland McInnes, John Healy, James Melville, "UMAP: Uniform Manifold Approximation and Projection
for Dimension Reduction", https://arxiv.org/abs/1802.03426, 2018.
2. Narayan, A., Berger, B. & Cho, H. "Assessing single-cell transcriptomic variability through density-
preserving data visualization." Nature Biotechnology, https://www.nature.com/articles/s41587-020-
00801-7 , 2021
参考文献一覧(1/2)
1. Laurens van der Maaten , Geoffrey Hinton , "Visualizing Data using t-SNE", Journal of Machine
Learning Research, https://lvdmaaten.github.io/publications/papers/JMLR_2008.pdf, 2008.11
2. @g-k氏, Qiita, "t-SNEを理解して可視化力を高める”, https://qiita.com/g-
k/items/120f1cf85ff2ceae4aba , 2021.10.08(最終アクセス2024.05.15)
3. @sakami氏, Qiita, "t-SNE解説", https://qiita.com/sakami/items/bb466161489771f7d2e9 , 2020.08,
(最終アクセス2024.05.15)
4. @hkharmfulbear氏, Qiita, "次元圧縮を片っ端から試してみた(t-SNE, PCA, MDS, UMAP)",
https://qiita.com/hkharmfulbear/items/a19dff8f3c637fa3bc12, 2022.03, (最終アクセス2024.05.15)
5. @kenmatsu4(まつけん)氏, Qiita, "Variational Autoencoder徹底解説",
https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24, 2017.06,(最終アクセス2024.05.15)
6. データ化学工学研究室(金子研究室)@明治大学 理工学部 応用化学科, "t-distributed Stochastic
Neighbor Embedding (t-SNE) ~データの可視化に特化した手法~",
https://datachemeng.com/tsne/ , (最終アクセス2024.05.15)
参考文献一覧(2/2)
7. 室田 一雄, 東京大学計数工学科及び数理情報学専攻 - 俯瞰講義 (数理の世界 第 7回) , "最適化の
数理—応用数理の視点", https://ocw.u-tokyo.ac.jp/lecture_files/gf_06/7/notes/ja/07murota.pdf,
2007.06
8. Leland McInnes, John Healy, James Melville, "UMAP: Uniform Manifold Approximation and Projection
for Dimension Reduction", https://arxiv.org/abs/1802.03426, 2018.
9. Narayan, A., Berger, B. & Cho, H. "Assessing single-cell transcriptomic variability through density-
preserving data visualization." Nature Biotechnology, https://www.nature.com/articles/s41587-020-
00801-7 , 2021
• データソース
https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones
• 引用元
Davide Anguita, Alessandro Ghio, Luca Oneto, Xavier Parra and Jorge L. Reyes-Ortiz. "A Public Domain
Dataset for Human Activity Recognition Using Smartphones". 21th European Symposium on Artificial
Neural Networks, Computational Intelligence and Machine Learning, ESANN 2013. Bruges, Belgium 24-
26 April 2013.

t-SNE(t分布型確率的近傍埋め込み法)による高次元データの可視化について