SlideShare a Scribd company logo
4
論文概要
4
NTKとDLでは、アンサンブルと蒸留の効果が異なることを理論と実験で示した
𝑓 𝑥
1
𝑁
𝑖
𝑓𝑖 𝑥
1
𝑁
𝑖
𝑓𝑖 𝑥
1
𝑁
𝑖
𝑓𝑖 𝑥 → 𝑔 𝑥
𝑓 𝑥 → 𝑔 𝑥
直接学習 学習後に平均
Most read
9
問題設定
9
■NTK、DLに関する関連研究結果を踏まえ、以下の問題設定を考え
る
• ガウス分布よりも構造化された入力分布。ラベルノイズなし
• 訓練は完璧(誤差0)で、テスト精度にばらつきなし
• 初期化乱数のみ異なる複数のモデルを
• アーキテクチャや学習データ、学習アルゴの違いなし
• 学習の失敗は起こらない
上記を満たしたうえで、
アンサンブルによる性能向上を説明するアイディ
アとして、
multi-viewを提案
各種観察事実を説明する仮説としてmulti-viewを提案
Most read
10
multi-view
10
■multi-viewデータの例
• 車の構成要素(view)として、
window、headlight、wheelを想
定
• ただし、3つの内1つが欠けた車
もある
• 猫を示す特徴を含む場合がある
クラスラベルごとに複数viewを持ち、欠損や共存も想定
Most read
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
”Towards Understanding Ensemble, Knowledge Distillation
and Self-Distillation in Deep Learning” ICRL2023
Kensuke Wakasugi, Panasonic Holdings Corporation.
1
書誌情報
2
 タイトル:
Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep
Learning
 著者:
• Zeyuan Allen-Zhu(Meta FAIR Labs)
• Yuanzhi Li(Mohamed bin Zayed University of AI)
 その他:
• ICLR 2023 notable top 5% OpenReview
 選書理由
• ICLR2023のNotable-top-5%から選出。
• アンサンブルや蒸留の動作原理について興味があったため
※特に記載しない限り、本資料の図表は上記論文からの引用です。
はじめに
3
■Contributions
• “multi-view”と呼ぶデータ構造を提案
• アンサンブルと蒸留の動作原理を、理論と実験で示した
■背景・課題
• 初期値のみ異なるネットワークの単純平均アンサンブルや蒸留によって予測性能が向上するが、
この現象がなぜ生じているのか理論的に説明できていない。
論文概要
4
NTKとDLでは、アンサンブルと蒸留の効果が異なることを理論と実験で示した
𝑓 𝑥
1
𝑁
𝑖
𝑓𝑖 𝑥
1
𝑁
𝑖
𝑓𝑖 𝑥
1
𝑁
𝑖
𝑓𝑖 𝑥 → 𝑔 𝑥
𝑓 𝑥 → 𝑔 𝑥
直接学習 学習後に平均
背景
5
(1). Boosting: where the coeffcients associated with the combinations of the
single models are actually trained, instead of simply taking average;
(2). Bootstrapping/Bagging: the training data are different for each single model;
(3). Ensemble of models of different types and architectures;
(4). Ensemble of random features or decision trees.
■アンサンブルの理論解析
• いくつかの状況設定で理論解析はあるが、単純平均のアンサンブルにおける理論解析がない
単純平均のアンサンブル学習の理論解析に着目
■単純平均のアンサンブル学習の理論解析
• 初期化乱数のみ異なるモデル(学習データ、学習率、アーキテクチャ固定)における以下の現
象を
理論的に説明することを試みる
 Training average does not work: 学習前にモデルをアンサンブルしても効果
なし
 Knowledge distillation works:単一モデルに複数モデルから蒸留できる
 Self-distillation works:単一モデルから別の単一モデルへの蒸留でも性能が向上
Neural Tangent Kernel
6
1、NNパラメータの更新式
𝒘𝑡+1 = 𝒘𝑡 − 𝜂
𝜕𝑙𝑜𝑠𝑠
𝜕𝒘
2、微分方程式とみなすと
𝜕𝒘
𝜕𝑡
= −
𝜕𝑙𝑜𝑠𝑠
𝜕𝒘
= −
𝜕𝒚
𝜕𝒘
(𝒚 − 𝒚)
3、学習中の出力𝑦の変化
𝜕𝒚
𝜕𝑡
=
𝜕𝒚
𝜕𝒘
𝑇
𝜕𝒘
𝜕𝑡
= −
𝜕𝒚
𝜕𝒘
𝑇
𝜕𝒚
𝜕𝒘
(𝒚 − 𝒚)
4、Neural Tangent Kernel
𝝓 =
𝜕𝒚
𝜕𝒘
, 𝑲 =
𝜕𝒚
𝜕𝒘
𝑇
𝜕𝒚
𝜕𝒘
※ 𝒚は複数の学習データを
並べてベクトル化
※ 𝜙はカーネル法でいうところの
高次元特徴量空間への写像関数
5、width→∞でK→const
𝜕𝒚
𝜕𝑡
= −𝑲(𝒚 − 𝒚)
6、 𝒅 = 𝒚 − 𝒚について
𝜕𝒅
𝜕𝑡
= −𝑲𝒅
𝒅 𝑡 = 𝒅 0 𝑒−𝑲𝑡
※𝑲は正定値行列で,
固有値は収束の速さに対応
学習パラメータ
𝒘
出力
𝑦
目的関数
loss
学習データ
𝑥
正解ラベル
𝑦
関数
𝑓
学習中の出力𝑦の変化をNTKで線形近似。大域解に収束できる。
参考:Neural Tangent Kernel: Convergence and Generalization in Neural Networks (neurips.cc)
Understanding the Neural Tangent Kernel – Rajat's Blog – A blog about machine learning and math. (rajatvd.github.io)
NTKにおけるアンサンブル、平均モデル学習、蒸留の効果
7
■NTKによる出力の近似
• NTK 𝝓 の線形結合で表現
■アンサンブル
• 線形結合をとる𝝓が増える
→ 特徴選択によって性能向上
※NTKのアンサンブルでの性能向上は、variance
の軽減によるものと思うが、本文中では特徴選択
と記載
アンサンブル、平均モデル学習は機能し、蒸留は機能しない
■平均モデル学習
• 線形結合をとる𝝓が増える+Wも学習
→ 特徴選択によって性能向上
■蒸留
• 蒸留先に、選択された特徴がないの
で、
性能向上せず
×
NTKでは、特徴選択によって性能向上するが、
DLでは別の仕組みで性能向上しているのではないか(特徴
学習)
DLにおけるアンサンブルの効果
8
ガウス状の入力の場合、ラベルノイズ有り無しに関わらずアンサンブルの効果な
し
単にばらつきを抑えるだけでは、性能向上しない
(後述するが)10モデルのアンサンブルでは、テスト精度の分散以上に性能
向上する
問題設定
9
■NTK、DLに関する関連研究結果を踏まえ、以下の問題設定を考え
る
• ガウス分布よりも構造化された入力分布。ラベルノイズなし
• 訓練は完璧(誤差0)で、テスト精度にばらつきなし
• 初期化乱数のみ異なる複数のモデルを
• アーキテクチャや学習データ、学習アルゴの違いなし
• 学習の失敗は起こらない
上記を満たしたうえで、
アンサンブルによる性能向上を説明するアイディ
アとして、
multi-viewを提案
各種観察事実を説明する仮説としてmulti-viewを提案
multi-view
10
■multi-viewデータの例
• 車の構成要素(view)として、
window、headlight、wheelを想
定
• ただし、3つの内1つが欠けた車
もある
• 猫を示す特徴を含む場合がある
クラスラベルごとに複数viewを持ち、欠損や共存も想定
multi-view
11
seed違いで異なるviewを獲得。実データでも確認。
• 2クラス分類で、それぞれviewを2つ持つ
• ただし、他クラスの特徴を持つ場合、
single viewの場合がある
• 学習時、lossを減らすためは、viewのいずれかを
獲得すればよく、viewの未学習が生じる
• アンサンブルではそれをカバーするので、性能向
上する
• 蒸留では、ソフトラベルによって、0.1だけ含ま
れる特徴の学習が促される
NTKとの対比として
DLでは、必要なviewを学習できるが、
NTK(random feature)では学習できない
ため、
振る舞いの違いが生じる
理論解析:データ構造
12
P個のパッチにviewが埋め込まれているデータ構造を考える
• Vision Transformerのよう
な入力形式を想定
• multiとsingleの割合などはパラメータ
• 理論解析全体を通して、
各種パラメータをクラス数kで表現する
(※理由わからず)。
ネットワーク
13
※数式的には畳み込みは1層分?
2層のCNN+滑らかなReLUを利用
学習
14
一般的な学習方法
テスト時の精度
15
• 十分高い確率で完璧な学習ができ、
テスト時の不正解確率が0.49μ~0.51μ
に収まる
• μ:Single Viewの割合
• 1-μ:Multi-Viewの割合
テスト時の精度を解析的に提示
アンサンブル時の精度
16
• 十分高い確率で完璧な学習ができ、
アンサンブルモデルのテスト時の不正解
確率が<0.001μ
• μ:Single Viewの割合
• 1-μ:Multi-Viewの割合
アンサンブルモデルの性能が向上
蒸留時の精度
17
• 十分高い確率で完璧な学習ができ、
蒸留モデルのテスト時の不正解確率が
<0.001μ
• μ:Single Viewの割合
• 1-μ:Multi-Viewの割合
蒸留によって、アンサンブルモデルと同程度の精度を獲得
自己蒸留の精度
18
• 2モデルアンサンブル相当の性能のため
低めだが、単体モデルよりも性能向上
• μ:Single Viewの割合
• 1-μ:Multi-Viewの割合
2モデルのアンサンブルと同等の精度を獲得
実データでの検証実験
19
NTKとDLにおけるアンサンブルの働きの違いを検証
• 冒頭の上図に対応する実験結果
multi-view仮説の検証
20
channelの切り捨てで性能低下しても、アンサンブルで復元
• channel毎にviewを獲得して
おり、
それらの組合せが重要である
ことを示唆
まとめ・所感
21
 まとめ
• Multi-view仮説を提案。
• NTKとDLにおけるアンサンブルの働きの違いを理論的に証明。
• ランダムクロップによるデータ拡張など、
Multi-view仮説に基づく特徴獲得手法への発展を期待
 所感
• データ構造まで取り扱っており面白い。
• アンサンブルと一言にいっても、機能の仕方が異なっており、その一部をうまく整理
している印象。dropoutなども同様に説明がつきそう。
• まとめにある通り、汎化性能向上策への展開が期待される

More Related Content

What's hot (20)

[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
Deep State Space Models for Time Series Forecasting の紹介
Deep State Space Models for Time Series Forecasting の紹介Deep State Space Models for Time Series Forecasting の紹介
Deep State Space Models for Time Series Forecasting の紹介
Chihiro Kusunoki
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章
Kota Matsui
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
Direct feedback alignment provides learning in Deep Neural Networks
Direct feedback alignment provides learning in Deep Neural NetworksDirect feedback alignment provides learning in Deep Neural Networks
Direct feedback alignment provides learning in Deep Neural Networks
Deep Learning JP
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
joisino
 
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
Deep Learning JP
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
Deep Learning JP
 
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
Chihiro Kusunoki
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
Deep State Space Models for Time Series Forecasting の紹介
Deep State Space Models for Time Series Forecasting の紹介Deep State Space Models for Time Series Forecasting の紹介
Deep State Space Models for Time Series Forecasting の紹介
Chihiro Kusunoki
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章
Kota Matsui
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
Direct feedback alignment provides learning in Deep Neural Networks
Direct feedback alignment provides learning in Deep Neural NetworksDirect feedback alignment provides learning in Deep Neural Networks
Direct feedback alignment provides learning in Deep Neural Networks
Deep Learning JP
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
joisino
 
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
Deep Learning JP
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
Deep Learning JP
 
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
Chihiro Kusunoki
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 

Similar to 【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning (20)

[DL輪読会]Ensemble Distribution Distillation
[DL輪読会]Ensemble Distribution Distillation[DL輪読会]Ensemble Distribution Distillation
[DL輪読会]Ensemble Distribution Distillation
Deep Learning JP
 
200704 revisiting knowledge distillation via label smoothing regularization
200704 revisiting knowledge distillation via label smoothing regularization 200704 revisiting knowledge distillation via label smoothing regularization
200704 revisiting knowledge distillation via label smoothing regularization
亮宏 藤井
 
Deep Learningの技術と未来
Deep Learningの技術と未来Deep Learningの技術と未来
Deep Learningの技術と未来
Seiya Tokui
 
Hello deeplearning!
Hello deeplearning!Hello deeplearning!
Hello deeplearning!
T2C_
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
Ryutaro Yamauchi
 
20150930
2015093020150930
20150930
nlab_utokyo
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
Yusuke Iwasawa
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
Dropout Distillation
Dropout DistillationDropout Distillation
Dropout Distillation
Shotaro Sano
 
20170624yamada
20170624yamada20170624yamada
20170624yamada
Ozawa Kensuke
 
深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1
Masayoshi Kondo
 
機械系のラボがAI(DL)を研究する意義【東京工業大学・鈴木良郎】
機械系のラボがAI(DL)を研究する意義【東京工業大学・鈴木良郎】機械系のラボがAI(DL)を研究する意義【東京工業大学・鈴木良郎】
機械系のラボがAI(DL)を研究する意義【東京工業大学・鈴木良郎】
ssuser1bf283
 
20160329.dnn講演
20160329.dnn講演20160329.dnn講演
20160329.dnn講演
Hayaru SHOUNO
 
一般向けのDeep Learning
一般向けのDeep Learning一般向けのDeep Learning
一般向けのDeep Learning
Preferred Networks
 
Deep Learning技術の今
Deep Learning技術の今Deep Learning技術の今
Deep Learning技術の今
Seiya Tokui
 
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
Takayoshi Yamashita
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
 
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
Deep Learning JP
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP
 
令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -
Yutaka KATAYAMA
 
[DL輪読会]Ensemble Distribution Distillation
[DL輪読会]Ensemble Distribution Distillation[DL輪読会]Ensemble Distribution Distillation
[DL輪読会]Ensemble Distribution Distillation
Deep Learning JP
 
200704 revisiting knowledge distillation via label smoothing regularization
200704 revisiting knowledge distillation via label smoothing regularization 200704 revisiting knowledge distillation via label smoothing regularization
200704 revisiting knowledge distillation via label smoothing regularization
亮宏 藤井
 
Deep Learningの技術と未来
Deep Learningの技術と未来Deep Learningの技術と未来
Deep Learningの技術と未来
Seiya Tokui
 
Hello deeplearning!
Hello deeplearning!Hello deeplearning!
Hello deeplearning!
T2C_
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
Ryutaro Yamauchi
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
Yusuke Iwasawa
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
Dropout Distillation
Dropout DistillationDropout Distillation
Dropout Distillation
Shotaro Sano
 
深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1
Masayoshi Kondo
 
機械系のラボがAI(DL)を研究する意義【東京工業大学・鈴木良郎】
機械系のラボがAI(DL)を研究する意義【東京工業大学・鈴木良郎】機械系のラボがAI(DL)を研究する意義【東京工業大学・鈴木良郎】
機械系のラボがAI(DL)を研究する意義【東京工業大学・鈴木良郎】
ssuser1bf283
 
Deep Learning技術の今
Deep Learning技術の今Deep Learning技術の今
Deep Learning技術の今
Seiya Tokui
 
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
Takayoshi Yamashita
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
 
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
Deep Learning JP
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP
 
令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -
Yutaka KATAYAMA
 
Ad

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
 
Ad

【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning