PolyViT:
Co-training Vision Transformers
on Images,Videos and Audio
Valerii Likhosherstov, Anurag Arnab, Krzysztof Choromanski,
Mario Lucic, Yi Tay Adrian Weller, Mostafa Dehghani
志水秀熙(名工大玉木研)
2022/11/11
背景
◼特定データセットにおけるモデルの発展
• 画像:EfficientNet [Tan&Le, ICML2019], ResNet [He+, CVPR2016]
• 動画:C3D [Tran+, ICCV2015], I3D [Carreira&Zisserman, CVPR2017]
• 音声:CTC [Alex+, ICML2006]
◼複数データセットを処理する単一モデルの研究
• より汎化的なモデルの生成
• 人間の視覚システムに近い
• 他データセットへの適用が容易
データセット1
データセット2
データセットn
単一モデル
出力1
出力2
出力n
.
.
. .
.
.
概要
◼複数タスクの同時学習モデル:PolyViT
• 画像,動画,音声の複数タスクを処理
• モダリティ:入力の種類(画像,動画,音声)
• タスク:画像分類,物体検出,セマンティックセグメンテーション
• ベースモデル:Vision Transformer (ViT) [Dosovitskiy+, ICLR 2021]
関連研究
◼マルチタスク学習
• 複数タスクを単一モデルで処理
• 1つの入力画像から複数タスクの出力を行う [Eigen+, arXiv2015],[Li+, arXiv2020],
[Fard+, arXiv2021]
• 同時に処理するタスクの数とモデルの性能はトレードオフ [Kokkinos+,
CVPR2017], [MacCann+, arXiv2018], [Zamir+, CVPR2018]
◼マルチタスク学習における使用技術
• Gradient-normalization [Chen+, arXiv2020]
• Gradient-surgery [Yu+, arXiv2020]
• Adaptive loss weights [Kendall+, CVPR2018], [Sener&Koltun, arXiv2018]
PolyViT
◼PolyViT Tokenizer
• 入力を同じ大きさの次元にして埋め込み
• 各モダリティに固有のTokenizerを使用
◼PolyViT Encoder
• Transformer Encoderの使用(𝐿層)
• モダリティ固有のアダプタ層を導入(𝐿𝑎𝑑𝑎𝑝𝑡により指定)
◼ モダリティごとのモデル
• 画像:ViT [Dosovitskiy+, ICLR
2021]
• 動画:ViViT [Arnab+,
ICCV2021]
• 音声:AST [Gong+, arXiv2021]
PolyViT図
PolyViT Tokenizer
◼Image Tokenizer
1. 入力をパッチに分割
2. 線形層に入力(埋め込み)
• 特定の次元に変形
3. 学習可能なクラストークン, 位置情報を付与
+
+
クラストークン
+
+
1
2
9
PolyViT Encoder
線形層
Video, Audio Tokenizer
パッチ分割後の次元
線形層の中身が変更
.
.
.
Image Tokenizer
PolyViT Tokenizer
◼Video Tokenizer (ViViT)
• 数フレームの同一空間でパッチ作成
• パッチ次元:𝑡 × ℎ × 𝑤 × 3
• 線形層:三次元畳み込み
◼Audio Tokenizer (AST)
• 入力:メルスペクトログラム
• 音声の周波数表現
• スペクトログラムをパッチ分割
• パッチ次元:ℎ × 𝑤 × 1
• 線形層:二次元畳み込み
[Arnab+, ICCV2021]
[Gong+, arXiv2021]
PolyViT Encoder
◼L層のTransformer Encoder
• モダリティ固有のアダプタ層を導入:𝐿𝑎𝑑𝑎𝑝𝑡(= 0~𝐿)
• アダプタ層もTransformer Encoder
𝐿𝑎𝑑𝑎𝑝𝑡 = 0 𝐿𝑎𝑑𝑎𝑝𝑡 = 1
Transformer
encoder
Transformer
encoder
Transformer
encoder
.
.
.
Transformer
encoder
Transformer
encoder
Transformer
encoder
.
.
.
画像
動画
音声
PolyViT Encoder
◼L層のTransformer Encoder
• モダリティ固有のアダプタ層を導入:𝐿𝑎𝑑𝑎𝑝𝑡(= 0~𝐿)
• アダプタ層もTransformer Encoder
𝐿𝑎𝑑𝑎𝑝𝑡 = 0 𝐿𝑎𝑑𝑎𝑝𝑡 = 1
Transformer
encoder
Transformer
encoder
Transformer
encoder
.
.
.
Transformer
encoder
Transformer
encoder
Transformer
encoder
Transformer
encoder
.
.
.
画像
動画
音声
学習
◼サンプリング・スケジュール
• バッチの学習手順
• 学習データ量の比
◼事前学習
• ImageNet-21k, JFTにより事前学習
• 実験では,ImageNet-21kのみ
◼パラメータ
• Optimizer : SGD
• lr, batch size, warmup
• シングルタスクから得られた例
を採用
実験設定
◼画像,動画,音声における同時学習
• 9つのデータセットを学習
• 画像データセット
• ImageNet-1k, CIFAR-10,100, Oxford-IIIT Pets, RESISC-45
• 動画データセット
• Kinetics 400, Moments in Time
• 音声データセット
• AudioSet, VGGSound
• パラメータ
• シングルタスクで得られた例を採用
• 画像:[Dosovitskiy+, ICLR 2021]
• 動画:[Arnab+, ICCV2021]
• 音声:[Nagrani+, NeurIPS2021]
詳細なパラメータ
サンプリング・スケジュールの分析
サンプリング・スケジュールの分析
1
3
1
3
1
3
サンプリング・スケジュールの分析
3
15
5
15
7
15
サンプリング・スケジュールの分析
結果
Weighted task samplingが
最も良い性能
Top-1 accuracy
PolyViTによる様々な学習
◼単一データセットによるPolyViTの学習
• 9つの各データセットにつき1つモデルを用意 (Single-task baseline)
◼単一モダリティによるPolyViTの学習
• 画像,動画,音声の各モダリティにつき1つモデルを用意 (PolyViT, 1 modality)
◼複数モダリティによるPolyViTの学習
• 9つのデータセットで同時学習
• 𝐿𝑎𝑑𝑎𝑝𝑡 = 0,L/2に設定したモデルを用意 (PolyViT, 𝐿𝑎𝑑𝑎𝑝𝑡 = 0, 𝐿/2)
• エンコーダの学習を凍結し,ヘッドのみ学習 (ViT-Im21k Linear probe)
結果
性能を落とさず,
モデルサイズを3分の1に削減
まとめ
◼複数データセット,複数タスクの同時学習モデル:PolyViT
• 9つのデータセットを同時学習
• ベースモデル:ViT
◼PolyViTの利点
• コストの小さいモデルで性能がよい
• 単一モダリティ学習ではシングルタスクと変わらない性能
• 複数モダリティ学習では計算コストを三分の一へ削減
補足資料
Transformer Encoder
◼マルチヘッドアテンションの使用
• 入力パッチ𝑋を𝑄, 𝐾, 𝑉とする(全て𝑋)
• パッチの重要度の計算
• 𝐴 𝑄,𝐾 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥
𝑄𝐾𝑇
𝐷
• 𝐷: 入力パッチの次元
• 出力パッチの計算
• 𝑜𝑢𝑡𝑝𝑢𝑡 = 𝐴 𝑄, 𝐾 𝑉
◼正規化層の導入
• レイヤー正規化を使用
• チャネルごとに正規化
◼MLPの導入

文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio