SlideShare a Scribd company logo
論文紹介
Parallel Multiscale Autoregressive
Density Estimation
東京大学大学院理学系研究科物理学専攻 藤堂研究室
中西 健
論文名: Parallel Multiscale Autoregressive
Density Estimation
著者: Scott Reed, et. al. (DeepMind)
公開日: 10 Mar 2017
※スライド中の図表は特に記述のない限り上記の論文から引用
Paper information
• PixelCNNの高速化に興味があった
この論文を選んだ動機
自自己己回回帰帰モモデデルル で いいくくつつかかののピピククセセルル間間にに条条件件付付きき
独独立立性性をを仮仮定定 することで、生成にかかる計算時間を
OO((NN)) から OO((llooggNN)) にした (Nは画像のピクセル数)
→ 自己回帰モデルで大きな画像が作れるようになっ
た
概要
画像生成の方法は主に三種類
• 変分推論 (VAEなど)
• 敵対的学習 (GAN)
• 自己回帰モデル ← 今回はこれ
画像生成
• 自己回帰モデル とは
• 分布p(x1:T)を
のように書き下し、右辺の因子をNNなどでモデル化
自己回帰モデル
• 画像における自己回帰モデル とは (e.g. PixelCNN)
• 画像の上から下に、行ごとに左から右に生成
• channel方向はRGBの順に生成
• 生成し終えたデータはすべて次の予測に使ってよい
画像における自己回帰モデル
• 画像における自己回帰モデルの良い点
• 画像の密度推定でSOTA
• 学習が並列化できるので高速
• 画像における自己回帰モデルの悪い点
• 生成に非常に時間がかかる
• (参考)リアルタイム生成動画 https://github.com/PrajitR/fast-pixel-cnn
• 画像のピクセル数をNとして、生成にかかる時間はO(N)
本論文: 生成時間を O(logN) にした
画像における自己回帰モデル
本論文の手法
PixelCNN
本論文の提案手法
粗い画像から緻密な画像にしていく
どちらもchannel方向はRGBの順に生成
(A) Simplest version
(B) Sophisticated version
本論文の手法
spatial
feature map
• クラス条件付き画像生成
• Imagenetを使用
• キャプションからの画像生成 (今回は省略)
• CUB(鳥の画像データセット)を使用
• 他にもMPII, MS-COCOを用いて同様の実験をしてい
る
• アクション条件付き動画生成 (今回は省略)
• Robot Pushingを使用
実験
dataset: ImageNet (1000クラス, 約100万枚)
Sophisticated versionのモデルで画像拡大
• 12層のResNet
• 4層のPixelCNN
• 隠れ層のユニット数はすべて256
• 8x8の画像から128x128まで拡大していく
クラス条件付き画像生成実験
生成された画像
負の対数尤度
• 自己回帰モデルでないモデルには勝っている
結果
)← 生成にかかる時間 O(N)
← 生成にかかる時間 O(logN)
計算速度の比較
• 32x32の画像生成ですら100倍程度の高速化
結果 (計算速度)
• PixelCNNの画像生成高速化方法を提案
• 生成速度がO(N)→O(logN)になった (N: ピクセル数)
• 応用先
• テキストからの画像生成
• ビデオ生成
• 超解像
まとめと展望
追加資料
• CUB
• 200種の鳥の画像
• 11788枚
• 各画像に10個のキャプション
• 各画像に15個のKeypoints
キャプションからの画像生成実験
結果

More Related Content

PPTX
'Multilayer Networks' Section3
Motoka Fukui
 
PDF
松本克彦 Flash stage3dに対応した3d物理演算ライブラリの検証
matsumoto_katsuhiko
 
PDF
論文紹介 "DARTS: Differentiable Architecture Search"
Yuta Koreeda
 
PDF
論文紹介 dhSegment:文書セグメンテーションのための包括的ディープラーニングアプローチ
Hideo Terada
 
PPTX
CNNの構造最適化手法について
MasanoriSuganuma
 
PDF
Deeply-Recursive Convolutional Network for Image Super-Resolution
harmonylab
 
PDF
[DLHacks 実装] The statistical recurrent unit
Deep Learning JP
 
PDF
[DLHacks 実装]Neural Machine Translation in Linear Time
Deep Learning JP
 
'Multilayer Networks' Section3
Motoka Fukui
 
松本克彦 Flash stage3dに対応した3d物理演算ライブラリの検証
matsumoto_katsuhiko
 
論文紹介 "DARTS: Differentiable Architecture Search"
Yuta Koreeda
 
論文紹介 dhSegment:文書セグメンテーションのための包括的ディープラーニングアプローチ
Hideo Terada
 
CNNの構造最適化手法について
MasanoriSuganuma
 
Deeply-Recursive Convolutional Network for Image Super-Resolution
harmonylab
 
[DLHacks 実装] The statistical recurrent unit
Deep Learning JP
 
[DLHacks 実装]Neural Machine Translation in Linear Time
Deep Learning JP
 

Viewers also liked (15)

PDF
[DL輪読会]Training RNNs as Fast as CNNs
Deep Learning JP
 
PDF
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP
 
PDF
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
Deep Learning JP
 
PDF
[DL輪読会] The Conditional Analogy GAN: Swapping Fashion Articles on People Images
Deep Learning JP
 
PPTX
Web開発初心者がReactをチームに導入して半年経った
kazuki matsumura
 
PDF
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
Deep Learning JP
 
PDF
React.js + Flux入門 #scripty02
Yahoo!デベロッパーネットワーク
 
PDF
[DLHacks] DLHacks説明資料
Deep Learning JP
 
PPTX
[DL輪読会] DeepNav: Learning to Navigate Large Cities
Deep Learning JP
 
PDF
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
Deep Learning JP
 
PDF
[DL輪読会]Opening the Black Box of Deep Neural Networks via Information
Deep Learning JP
 
PDF
[DLHacks 実装]Perceptual Adversarial Networks for Image-to-Image Transformation
Deep Learning JP
 
PDF
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
Deep Learning JP
 
PPTX
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
 
PDF
[DL輪読会]Energy-based generative adversarial networks
Deep Learning JP
 
[DL輪読会]Training RNNs as Fast as CNNs
Deep Learning JP
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP
 
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
Deep Learning JP
 
[DL輪読会] The Conditional Analogy GAN: Swapping Fashion Articles on People Images
Deep Learning JP
 
Web開発初心者がReactをチームに導入して半年経った
kazuki matsumura
 
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
Deep Learning JP
 
React.js + Flux入門 #scripty02
Yahoo!デベロッパーネットワーク
 
[DLHacks] DLHacks説明資料
Deep Learning JP
 
[DL輪読会] DeepNav: Learning to Navigate Large Cities
Deep Learning JP
 
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
Deep Learning JP
 
[DL輪読会]Opening the Black Box of Deep Neural Networks via Information
Deep Learning JP
 
[DLHacks 実装]Perceptual Adversarial Networks for Image-to-Image Transformation
Deep Learning JP
 
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
Deep Learning JP
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
 
[DL輪読会]Energy-based generative adversarial networks
Deep Learning JP
 
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
Ad

Recently uploaded (6)

PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 

[DL輪読会]Parallel Multiscale Autoregressive Density Estimation