Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Kensho Hara
PDF, PPTX
25,367 views
3D CNNによる人物行動認識の動向
動画中の人物行動認識における3D CNNを用いた手法の動向を紹介します.
Technology
◦
Related topics:
Computer Vision Insights
•
Deep Learning
•
Read more
23
Save
Share
Embed
Download
Download as PDF, PPTX
1
/ 23
2
/ 23
3
/ 23
4
/ 23
5
/ 23
6
/ 23
Most read
7
/ 23
8
/ 23
9
/ 23
10
/ 23
11
/ 23
12
/ 23
Most read
13
/ 23
Most read
14
/ 23
15
/ 23
16
/ 23
17
/ 23
18
/ 23
19
/ 23
20
/ 23
21
/ 23
22
/ 23
23
/ 23
More Related Content
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
by
cvpaper. challenge
PDF
動作認識の最前線:手法,タスク,データセット
by
Toru Tamaki
PDF
【チュートリアル】コンピュータビジョンによる動画認識
by
Hirokatsu Kataoka
PDF
深層学習によるHuman Pose Estimationの基礎
by
Takumi Ohkuma
PDF
Action Recognitionの歴史と最新動向
by
Ohnishi Katsunori
PDF
動画認識サーベイv1(メタサーベイ )
by
cvpaper. challenge
PDF
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
by
Toru Tamaki
PDF
動画像理解のための深層学習アプローチ
by
Toru Tamaki
動画認識における代表的なモデル・データセット(メタサーベイ)
by
cvpaper. challenge
動作認識の最前線:手法,タスク,データセット
by
Toru Tamaki
【チュートリアル】コンピュータビジョンによる動画認識
by
Hirokatsu Kataoka
深層学習によるHuman Pose Estimationの基礎
by
Takumi Ohkuma
Action Recognitionの歴史と最新動向
by
Ohnishi Katsunori
動画認識サーベイv1(メタサーベイ )
by
cvpaper. challenge
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
by
Toru Tamaki
動画像理解のための深層学習アプローチ
by
Toru Tamaki
What's hot
PDF
【メタサーベイ】Video Transformer
by
cvpaper. challenge
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
by
Deep Learning JP
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
by
Deep Learning JP
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
by
Deep Learning JP
PDF
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
by
Deep Learning JP
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
by
Deep Learning JP
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
by
SSII
PDF
[DL輪読会]SlowFast Networks for Video Recognition
by
Deep Learning JP
PDF
動作認識におけるディープラーニングの最新動向1 3D-CNN
by
WEBFARMER. ltd.
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
by
SSII
PPTX
近年のHierarchical Vision Transformer
by
Yusuke Uchida
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
by
Yusuke Uchida
PDF
スパースモデリング入門
by
Hideo Terada
PPTX
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
by
Kento Doi
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
by
Deep Learning JP
PPTX
論文紹介: Fast R-CNN&Faster R-CNN
by
Takashi Abe
PDF
【DL輪読会】Patches Are All You Need? (ConvMixer)
by
Deep Learning JP
PDF
GAN(と強化学習との関係)
by
Masahiro Suzuki
PPTX
モデル高速化百選
by
Yusuke Uchida
PDF
画像認識の初歩、SIFT,SURF特徴量
by
takaya imai
【メタサーベイ】Video Transformer
by
cvpaper. challenge
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
by
Deep Learning JP
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
by
Deep Learning JP
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
by
Deep Learning JP
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
by
Deep Learning JP
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
by
Deep Learning JP
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
by
SSII
[DL輪読会]SlowFast Networks for Video Recognition
by
Deep Learning JP
動作認識におけるディープラーニングの最新動向1 3D-CNN
by
WEBFARMER. ltd.
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
by
SSII
近年のHierarchical Vision Transformer
by
Yusuke Uchida
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
by
Yusuke Uchida
スパースモデリング入門
by
Hideo Terada
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
by
Kento Doi
【DL輪読会】ViT + Self Supervised Learningまとめ
by
Deep Learning JP
論文紹介: Fast R-CNN&Faster R-CNN
by
Takashi Abe
【DL輪読会】Patches Are All You Need? (ConvMixer)
by
Deep Learning JP
GAN(と強化学習との関係)
by
Masahiro Suzuki
モデル高速化百選
by
Yusuke Uchida
画像認識の初歩、SIFT,SURF特徴量
by
takaya imai
Similar to 3D CNNによる人物行動認識の動向
PDF
Towards Performant Video Recognition
by
cvpaper. challenge
PDF
【チュートリアル】コンピュータビジョンによる動画認識 v2
by
Hirokatsu Kataoka
PDF
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
by
Hirokatsu Kataoka
PDF
コンピュータビジョンの研究開発状況
by
cvpaper. challenge
PDF
文献紹介:Temporal Convolutional Networks for Action Segmentation and Detection
by
Toru Tamaki
PDF
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
by
Daiki Shimada
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
by
cvpaper. challenge
PDF
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
by
Toru Tamaki
PDF
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
by
cvpaper. challenge
PDF
【2016.04】cvpaper.challenge2016
by
cvpaper. challenge
PDF
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
by
Toru Tamaki
PDF
【2017.04】cvpaper.challenge 2017
by
cvpaper. challenge
PDF
文献紹介:Video Transformer Network
by
Toru Tamaki
PDF
【2017.06】 cvpaper.challenge 2017
by
cvpaper. challenge
PPTX
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
by
kazuki ide
PDF
動作認識におけるディープラーニングの最新動向2Sequential DL for HAR
by
WEBFARMER. ltd.
PDF
cvpaper.challenge@CVPR2015(Action Recognition)
by
cvpaper. challenge
PPTX
When will you do what? - Anticipating Temporal Occurrences of Activities (CVP...
by
TakuyaKobayashi12
PPTX
Eccv2016 pedestrian behavior understanding and prediction with deep neural ne...
by
ishii yasunori
PDF
Eccv2016 pedestrian behavior understanding and prediction with deep neural ne...
by
ishii yasunori
Towards Performant Video Recognition
by
cvpaper. challenge
【チュートリアル】コンピュータビジョンによる動画認識 v2
by
Hirokatsu Kataoka
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
by
Hirokatsu Kataoka
コンピュータビジョンの研究開発状況
by
cvpaper. challenge
文献紹介:Temporal Convolutional Networks for Action Segmentation and Detection
by
Toru Tamaki
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
by
Daiki Shimada
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
by
cvpaper. challenge
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
by
Toru Tamaki
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
by
cvpaper. challenge
【2016.04】cvpaper.challenge2016
by
cvpaper. challenge
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
by
Toru Tamaki
【2017.04】cvpaper.challenge 2017
by
cvpaper. challenge
文献紹介:Video Transformer Network
by
Toru Tamaki
【2017.06】 cvpaper.challenge 2017
by
cvpaper. challenge
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
by
kazuki ide
動作認識におけるディープラーニングの最新動向2Sequential DL for HAR
by
WEBFARMER. ltd.
cvpaper.challenge@CVPR2015(Action Recognition)
by
cvpaper. challenge
When will you do what? - Anticipating Temporal Occurrences of Activities (CVP...
by
TakuyaKobayashi12
Eccv2016 pedestrian behavior understanding and prediction with deep neural ne...
by
ishii yasunori
Eccv2016 pedestrian behavior understanding and prediction with deep neural ne...
by
ishii yasunori
Recently uploaded
PDF
論文紹介:"MM-Tracker: Motion Mamba for UAV-platform Multiple Object Tracking", "M...
by
Toru Tamaki
PDF
論文紹介:"Reflexion: language agents with verbal reinforcement learning", "MA-LMM...
by
Toru Tamaki
PPTX
20251029.セミナー.Claude Code on the web.pptx
by
ssuserc9be7c
PDF
AIアクセラレーターの力で加速する次世代AI技術: 革新が変革するテクノロジーの未来
by
Data Source
PDF
ReflecTrace: Hover Interface using Corneal Reflection Images Captured by Smar...
by
sugiuralab
PDF
AIアクセラレータの力で加速する人工知能の未来: 技術革新と産業革命を促進する力
by
Data Source
PDF
「Technology×Business×生成AI」株式会社CoToMaで未来を作る!
by
fujishiman
PDF
論文紹介: "Locality-Aware Zero-Shot Human-Object Interaction Detection" "Disentan...
by
Toru Tamaki
PDF
論文紹介:Simultaneous Detection and Interaction Reasoning for Object-Centric Acti...
by
Toru Tamaki
PDF
手軽に広範囲でプライバシーを守りながら人数カウントできる ~ LoRaWAN AI人流カウンター PF52 日本語カタログ
by
CRI Japan, Inc.
PDF
AIアクセラレーターが切り拓く未来: 技術革新の加速とそれがもたらす社会的・経済的影響
by
Data Source
PDF
AIプロセッサの未来: 革新技術が切り開く次世代コンピュータ革命とその無限の可能性
by
Data Source
PDF
Marp - MarkdownとCSSでスライド作成 2025/10/31の勉強会で発表されたものです。
by
iPride Co., Ltd.
PDF
ADAS自動運転の未来: 次世代の技術革新が切り開く新しいモビリティ社会とその可能性
by
Data Source
PDF
ADAS自動車の未来: 次世代運転支援技術が実現する新たな運転体験とその進化の可能性
by
Data Source
PDF
Dragino社製 LoRaWAN AI人流カウンターPF52 日本語マニュアル
by
CRI Japan, Inc.
PDF
講演資料「テキストマイニングでできることー理学療法分野で活用するためのコツと注意点ー」
by
Matsushita Laboratory
論文紹介:"MM-Tracker: Motion Mamba for UAV-platform Multiple Object Tracking", "M...
by
Toru Tamaki
論文紹介:"Reflexion: language agents with verbal reinforcement learning", "MA-LMM...
by
Toru Tamaki
20251029.セミナー.Claude Code on the web.pptx
by
ssuserc9be7c
AIアクセラレーターの力で加速する次世代AI技術: 革新が変革するテクノロジーの未来
by
Data Source
ReflecTrace: Hover Interface using Corneal Reflection Images Captured by Smar...
by
sugiuralab
AIアクセラレータの力で加速する人工知能の未来: 技術革新と産業革命を促進する力
by
Data Source
「Technology×Business×生成AI」株式会社CoToMaで未来を作る!
by
fujishiman
論文紹介: "Locality-Aware Zero-Shot Human-Object Interaction Detection" "Disentan...
by
Toru Tamaki
論文紹介:Simultaneous Detection and Interaction Reasoning for Object-Centric Acti...
by
Toru Tamaki
手軽に広範囲でプライバシーを守りながら人数カウントできる ~ LoRaWAN AI人流カウンター PF52 日本語カタログ
by
CRI Japan, Inc.
AIアクセラレーターが切り拓く未来: 技術革新の加速とそれがもたらす社会的・経済的影響
by
Data Source
AIプロセッサの未来: 革新技術が切り開く次世代コンピュータ革命とその無限の可能性
by
Data Source
Marp - MarkdownとCSSでスライド作成 2025/10/31の勉強会で発表されたものです。
by
iPride Co., Ltd.
ADAS自動運転の未来: 次世代の技術革新が切り開く新しいモビリティ社会とその可能性
by
Data Source
ADAS自動車の未来: 次世代運転支援技術が実現する新たな運転体験とその進化の可能性
by
Data Source
Dragino社製 LoRaWAN AI人流カウンターPF52 日本語マニュアル
by
CRI Japan, Inc.
講演資料「テキストマイニングでできることー理学療法分野で活用するためのコツと注意点ー」
by
Matsushita Laboratory
3D CNNによる人物行動認識の動向
1.
3D CNNによる人物行動認識の動向 原 健翔 0 産業技術総合研究所
コンピュータビジョン研究グループ
2.
人物行動認識 1 入力:動画 → 出力:行動ラベルという課題 *K.
Soomo+, “UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild”, CRCV-TR-12-01, 2012. *
3.
代表的な大規模行動認識データセット | Trimmed 2 切り出し済み
or 開始終了ラベル込み動画 HMDB-51: 7000動画 (Movie, YouTube),51クラス UCF-101: 13000動画 (YouTube),101クラス ActivityNet: 28000動画 (YouTube),200クラス Kinetics: 30万動画 (YouTube),400クラス 大規模化がどんどん進んでいる
4.
代表的な大規模行動認識データセット | Untrimmed 3 動画単位ラベル&対象以外も含む
Sports-1M: 100万動画 (YouTube),487クラス Youtube-8M (Video Classification Dataset): 800万動画 (YouTube),4800クラス 規模は圧倒的なものの動画単位ラベルのみでノイズが多い
5.
CNN以前の行動認識手法 4 Dense Trajectories &
Fisher Vectorが主流 HOG, HOF, MBHによる局所特徴をFisher Vectorでエンコード* *H. Wang+, “Dense Trajectories and Motion Boundary Descriptors for Action Recognition”, IJCV, 2013.
6.
CNNベースの行動認識 5 2D CNN 時空間特徴抽出のため RGB
& Optical Flowの Two-streamが主流 3D CNN 空間 2D + 時間 1Dの 3D空間で畳み込み *D. Tran+, “Learning Spatiotemporal Features with 3D Convolutional Networks”, ICCV, 2015. * *
7.
3D CNNによる行動認識 |
C3D* 6 大規模動画データ (Sports-1M) を用いて良い性能を達成 著者らによる学習済みモデルの公開もあり3D CNNの標準となる *D. Tran+, “Learning Spatiotemporal Features with 3D Convolutional Networks”, ICCV, 2015. Conv: 3x3x3 kernels with 1 stride Pool: 2x2x2 (Pool1: 1x2x2) 実験的にこれがベストと確認 Input: 3 channels x 16 frames x 112 pixels x 112 pixels
8.
3D CNNによる行動認識 |
Long-term Convolution* 7 時間長変化の影響を検討 C3Dの16フレーム入力を変更 長くすると精度は向上 Optical Flow入力や RGB&Flow入力の有効性も発見 *G. Varol+, “Long-term Temporal Convolutions for Action Recognition”, TPAMI, 2017.
9.
この辺りまでの3D CNN 8 state-of-the-artよりも低精度 ImageNetでpretrainingした Two-stream
2D CNNベースがstate-of-the-art Two-stream 3D CNNでも精度は一歩劣る データ数不足が一番の原因? ネットワーク構造も10層のシンプルなものに とどまっている
10.
Kineticsデータセット* 9 Trimmed Actionで最大のデータセット 切り出された行動のインスタンス数では圧倒的! *W. Kay+,
“The Kinetics Human Action Video Dataset”, arXiv, 2017.
11.
Kineticsでの学習* 10 ImageNet Pretrained 2D
CNNとの差が激減 大量のデータにより3D CNNも学習可能に *W. Kay+, “The Kinetics Human Action Video Dataset”, arXiv, 2017. top-1/top-5
12.
Inception-v1ベースの3D CNN* 11 22層の3D CNN
2D Kernelの重みを 3DにコピーするInflatedにより ImageNetでもPretraining 入力は3x64x224x224 *J. Carreira+, “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset”, CVPR, 2017.
13.
Inception-v1ベースの3D CNN* 12 圧倒的な精度を達成 大規模(かつきれいな)データ の利用&Deep
3D CNNの 有効性が示された *J. Carreira+, “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset”, CVPR, 2017.
14.
ResNetベースの3D CNN* 13 画像認識で有効なResNetを動画像に応用 ResNetはInceptionよりも高精度
Kineticsデータセットを利用することで 3D ResNetを学習可能か? *K. Hara+, “Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition”, ICCV WS, 2017.
15.
学習時の設定 14 入力:3 channels
x 16 frames x 112 pixels x 112 pixels 最適化手法:SGD with momentum (0.9) Learning Rate:0.1 以後Validation Lossが収束したら1/10 Data Augumentation 50%でHorizontal Flip 4 corner, 1 centerからランダム選択してSpatial Crop 動画中から16フレームをランダム抽出
16.
学習に利用したマシン 15 NVIDIA TITAN
Xを4枚 Torchによる実装 4週間かけて学習 PyTorch実装で再学習したら1, 2週間で学習できた
17.
Kineticsでの学習結果 16 Pretrainingなしで過学習せずに3D ResNet-34を学習可能
18.
Kineticsでの認識精度 17 より深いResNetの方がC3Dよりも高い認識精度
19.
3D ResNet-34とI3D (Inception-v1) 18 I3Dの方が高い精度を実現
入力サイズの違い ResNet: 3x16x112x112, I3D: 3x64x224x224 高解像かつ時間長が長い方が精度は高くなる バッチサイズの違い Batch Normalization利用時にはバッチサイズは重要 I3Dの論文では64GPUでバッチサイズを大きく設定
20.
3D ResNetの学習コードと学習済みモデル 19 GitHubで公開中! Torch版https://github.com/kenshohara/3D-ResNets
と PyTorch版https://github.com/kenshohara/3D-ResNets-PyTorch ActivityNetとKineticsデータセットでの 学習・テストが可能 3D ResNet-34などの学習済みモデルも公開 その他のモデルも今後公開予定
21.
学習済みモデルを利用した動画認識用のコード 20 こちらもGitHubで公開中! Torch版https://github.com/kenshohara/video-classification-3d-cnn と PyTorch版https://github.com/kenshohara/video-classification-3d-cnn-pytorch
任意の動画に対してクラス識別(Kineticsの400クラス), 特徴抽出(Global Average Pooling後の400次元)が可能 実行結果の描画ツールも公開
22.
ResNet-34による認識結果例 21
23.
まとめ 22 3D CNNによる行動認識が盛り上がり中 大規模なKineticsデータセットにより 深いモデルも学習可能になってきた
今後この分野の研究が加速していくことが予測される
Download