文献紹介：PolyViT: Co-training Vision Transformers on Images, Videos and Audio

PolyViT:
Co-training Vision Transformers
on Images,Videos and Audio
Valerii Likhosherstov, Anurag Arnab, Krzysztof Choromanski,
Mario Lucic, Yi Tay Adrian Weller, Mostafa Dehghani
志水秀熙（名工大玉木研）
2022/11/11

背景
◼特定データセットにおけるモデルの発展
• 画像：EfficientNet [Tan&Le, ICML2019], ResNet [He+, CVPR2016]
• 動画：C3D [Tran+, ICCV2015], I3D [Carreira&Zisserman, CVPR2017]
• 音声：CTC [Alex+, ICML2006]
◼複数データセットを処理する単一モデルの研究
• より汎化的なモデルの生成
• 人間の視覚システムに近い
• 他データセットへの適用が容易
データセット1
データセット2
データセットn
単一モデル
出力1
出力2
出力n
.
.
. .
.
.

概要
◼複数タスクの同時学習モデル：PolyViT
• 画像，動画，音声の複数タスクを処理
• モダリティ：入力の種類（画像，動画，音声）
• タスク：画像分類，物体検出，セマンティックセグメンテーション
• ベースモデル：Vision Transformer (ViT) [Dosovitskiy+, ICLR 2021]

関連研究
◼マルチタスク学習
• 複数タスクを単一モデルで処理
• 1つの入力画像から複数タスクの出力を行う [Eigen+, arXiv2015],[Li+, arXiv2020],
[Fard+, arXiv2021]
• 同時に処理するタスクの数とモデルの性能はトレードオフ [Kokkinos+,
CVPR2017], [MacCann+, arXiv2018], [Zamir+, CVPR2018]
◼マルチタスク学習における使用技術
• Gradient-normalization [Chen+, arXiv2020]
• Gradient-surgery [Yu+, arXiv2020]
• Adaptive loss weights [Kendall+, CVPR2018], [Sener&Koltun, arXiv2018]

PolyViT
◼PolyViT Tokenizer
• 入力を同じ大きさの次元にして埋め込み
• 各モダリティに固有のTokenizerを使用
◼PolyViT Encoder
• Transformer Encoderの使用（𝐿層）
• モダリティ固有のアダプタ層を導入（𝐿𝑎𝑑𝑎𝑝𝑡により指定）
◼ モダリティごとのモデル
• 画像：ViT [Dosovitskiy+, ICLR
2021]
• 動画：ViViT [Arnab+,
ICCV2021]
• 音声：AST [Gong+, arXiv2021]
PolyViT図

PolyViT Tokenizer
◼Image Tokenizer
1. 入力をパッチに分割
2. 線形層に入力（埋め込み）
• 特定の次元に変形
3. 学習可能なクラストークン, 位置情報を付与
+
+
クラストークン
+
+
1
2
9
PolyViT Encoder
線形層
Video, Audio Tokenizer
パッチ分割後の次元
線形層の中身が変更
.
.
.
Image Tokenizer

PolyViT Tokenizer
◼Video Tokenizer (ViViT)
• 数フレームの同一空間でパッチ作成
• パッチ次元：𝑡 × ℎ × 𝑤 × 3
• 線形層：三次元畳み込み
◼Audio Tokenizer (AST)
• 入力：メルスペクトログラム
• 音声の周波数表現
• スペクトログラムをパッチ分割
• パッチ次元：ℎ × 𝑤 × 1
• 線形層：二次元畳み込み
[Arnab+, ICCV2021]
[Gong+, arXiv2021]

PolyViT Encoder
◼L層のTransformer Encoder
• モダリティ固有のアダプタ層を導入：𝐿𝑎𝑑𝑎𝑝𝑡(= 0~𝐿)
• アダプタ層もTransformer Encoder
𝐿𝑎𝑑𝑎𝑝𝑡 = 0 𝐿𝑎𝑑𝑎𝑝𝑡 = 1
Transformer
encoder
Transformer
encoder
Transformer
encoder
.
.
.
Transformer
encoder
Transformer
encoder
Transformer
encoder
.
.
.
画像
動画
音声

PolyViT Encoder
◼L層のTransformer Encoder
• モダリティ固有のアダプタ層を導入：𝐿𝑎𝑑𝑎𝑝𝑡(= 0~𝐿)
• アダプタ層もTransformer Encoder
𝐿𝑎𝑑𝑎𝑝𝑡 = 0 𝐿𝑎𝑑𝑎𝑝𝑡 = 1
Transformer
encoder
Transformer
encoder
Transformer
encoder
.
.
.
Transformer
encoder
Transformer
encoder
Transformer
encoder
Transformer
encoder
.
.
.
画像
動画
音声

学習
◼サンプリング・スケジュール
• バッチの学習手順
• 学習データ量の比
◼事前学習
• ImageNet-21k, JFTにより事前学習
• 実験では，ImageNet-21kのみ
◼パラメータ
• Optimizer : SGD
• lr, batch size, warmup
• シングルタスクから得られた例
を採用

実験設定
◼画像，動画，音声における同時学習
• 9つのデータセットを学習
• 画像データセット
• ImageNet-1k, CIFAR-10,100, Oxford-IIIT Pets, RESISC-45
• 動画データセット
• Kinetics 400, Moments in Time
• 音声データセット
• AudioSet, VGGSound
• パラメータ
• シングルタスクで得られた例を採用
• 画像：[Dosovitskiy+, ICLR 2021]
• 動画：[Arnab+, ICCV2021]
• 音声：[Nagrani+, NeurIPS2021]

サンプリング・スケジュールの分析

1
3
1
3
1
3

3
15
5
15
7
15

結果
Weighted task samplingが
最も良い性能
Top-1 accuracy

PolyViTによる様々な学習
◼単一データセットによるPolyViTの学習
• 9つの各データセットにつき1つモデルを用意 (Single-task baseline)
◼単一モダリティによるPolyViTの学習
• 画像，動画，音声の各モダリティにつき1つモデルを用意 (PolyViT, 1 modality)
◼複数モダリティによるPolyViTの学習
• 9つのデータセットで同時学習
• 𝐿𝑎𝑑𝑎𝑝𝑡 = 0,L/2に設定したモデルを用意 (PolyViT, 𝐿𝑎𝑑𝑎𝑝𝑡 = 0, 𝐿/2)
• エンコーダの学習を凍結し，ヘッドのみ学習 (ViT-Im21k Linear probe)

結果
性能を落とさず，
モデルサイズを3分の1に削減

まとめ
◼複数データセット，複数タスクの同時学習モデル：PolyViT
• 9つのデータセットを同時学習
• ベースモデル：ViT
◼PolyViTの利点
• コストの小さいモデルで性能がよい
• 単一モダリティ学習ではシングルタスクと変わらない性能
• 複数モダリティ学習では計算コストを三分の一へ削減

Transformer Encoder
◼マルチヘッドアテンションの使用
• 入力パッチ𝑋を𝑄, 𝐾, 𝑉とする（全て𝑋）
• パッチの重要度の計算
• 𝐴 𝑄,𝐾 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥
𝑄𝐾𝑇
𝐷
• 𝐷: 入力パッチの次元
• 出力パッチの計算
• 𝑜𝑢𝑡𝑝𝑢𝑡 = 𝐴 𝑄, 𝐾 𝑉
◼正規化層の導入
• レイヤー正規化を使用
• チャネルごとに正規化
◼MLPの導入

文献紹介：PolyViT: Co-training Vision Transformers on Images, Videos and Audio

More Related Content

What's hot

Similar to 文献紹介：PolyViT: Co-training Vision Transformers on Images, Videos and Audio

More from Toru Tamaki

文献紹介：PolyViT: Co-training Vision Transformers on Images, Videos and Audio