LiDAR-Camera Fusionによる屋外環境
のSemantic Segmentationサーベイ
2019年1月31日 takmin
自己紹介
2
株式会社ビジョン&ITラボ 代表取締役
皆川 卓也(みながわ たくや)
「コンピュータビジョン勉強会@関東」主催
博士(工学)
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化)
お問い合わせ:http://visitlab.jp
本資料について
 本資料は主にLiDARから取得した道路上の点群データと
カメラ、<両方>を用いてSemantic Segmentationを行う技
術について調査結果をまとめたものです。
屋内での事例しかないものについては調査から外しました。
 前回調査した点群データ<のみ>を用いたSemantic
Segmentationについて、文献を1つ追加しました。
Improved Semantic StixelというLiDAR-Camera Fusionの手法の
中で利用されていたため
関連資料
 LiDAR-Camera Fusionによる道路上の物体検出サーベイ
https://www.slideshare.net/takmin/object-detection-with-
lidarcamera-fusion-survey-updated
 LiDARによる道路上の物体検出サーベイ
https://www.slideshare.net/takmin/20181130-lidar-object-
detection-survey
 LiDARによる道路上のSemantic Segmentationサーベイ
https://www.slideshare.net/takmin/20181228-lidarsemantic-
segmentation
点群のみを使ったSemantic Segmentation
前回調査からの追加分
 [Piewak2018] Piewak, F., Pinggera, P., Sch, M., Peter, D.,
Schwarz, B., Schneider, N., … Ag, D. (2018). Boosting
LiDAR-based Semantic Labeling by Cross-Modal Training
Data Generation. ArXiv, 1804.09915.
[Piewak2018]LiLaNet (1/3)
 Semi-denseな点群(VelodyneVLP32C LiDARでの取得を想定)
に対して高精度なSemantic Labelingを行うCNNモデル
点群をシリンダー上へ投影して画像化(距離と反射率の2チャネル)
したものを入力
低解像度で非対称のシリンダ投影画像を扱うために、非対称カーネ
ルの畳み込みと統合を行うLiLaBlockを導入
[Piewak2018]LiLaNet (2/3)
 学習データの作成(点群へのラベル付け)を自動化
(Autolabeling)
画像に対し、既存手法でSemantic Segmentation
点群を画像へ投影し、各点のラベルを対応画素から決定
LiDARの測定時間(各点を違う時刻で測定)とカメラの測定時間(前
画素を同時刻に取得)のずれを補正
[Piewak2018]LiLaNet (3/3)
 LiDARとカメラから取得したデータを元に手動、または
Autolabelingを用いてラベル付けしたものを元に評価
LiDAR-Camera Fusion Semantic
Segmentation
 [Cadena2014] Cadena, C., & Koˇ, J. (2014). Semantic
Segmentation with Heterogeneous Sensor Coverages. IEEE
International Conference on Robotics and Automation (ICRA).
 [Zhang2015]Zhang, R., Candra, S.A.,Vetter, K., & Zakhor,A.
(2015). Sensor Fusion for Semantic Segmentation of Urban
Scenes. IEEE International Conference on Robotics and
Automation.
 [Gadde2018]Gadde, R., Jampani,V., Marlet, R., & Gehler, P.V.
(2018). Efficient 2D and 3D Facade Segmentation Using Auto-
Context. IEEETransactions on Pattern Analysis and Machine
Intelligence, 40(5), 1273–1280.
 [Felix2017]Felix, J., Danelljan, M.,Tosteberg, P., Bhat, G., Khan, F.
S., & Felsberg, M. (2017). Deep Projective 3D Semantic
Segmentation. In International Conference on Computer Analysis of
Images and Patterns.
LiDAR-Camera Fusion Semantic
Segmentation
 [Su2018]Su, H., Jampani,V., Sun, D., Maji, S., Kalogerakis, E.,Yang,
M.-H., & Kautz, J. (2018). SPLATNet: Sparse Lattice Networks
for Point Cloud Processing. IEEE Conference on ComputerVision
and Pattern Recognition.
 [Jaritz2018]Jaritz, M., Charette, R. de,Wirbel, E., Perrotton, X., &
Nashashibi, F. (2018). Sparse and Dense Data with CNNs:
Depth Completion and Semantic Segmentation. International
Conference on 3DVision (3DV).
 [Piewak2018_2]Piewak, F., Pinggera, P., Enzweiler, M., Pfeiffer, D.,
& Zöllner, M. (2018). Improved Semantic Stixels via Multimodal
Sensor Fusion. ArXiv, 1809.08993v2.
 [Caltagirone2018]Caltagirone, L., Bellone, M., Svensson, L., &
Wahde, M. (2018). LIDAR-Camera Fusion for Road Detection
Using Fully Convolutional Neural Networks. ArXiv, 1809.07941.
[Cadena2014]Heterogeneous Sensor
Coverage (1/3)
 カメラとLiDARではそもそも視野が異なるため、画像と点
群両方のデータが取れる領域だけでなく、画像のみ、点
群のみの領域が存在
 それら3パターンの領域をCRFを用いて統一的に
Semantic Segmentationする手法
緑:画像データのある領域
青:点群データのある領域
[Cadena2014]Heterogeneous Sensor
Coverage (2/3)
以下の3つのグラフを結合し、CRFでラベル推定
 画像のグラフ化
SLIC Super Pixelを生成してノードとし、隣接関係をエッジであらわす
エッジの重みをLAB色空間のノード間距離として、最小全域木を作成
 画像と点群のグラフ化
画像と点群がともにある領域では、点群を画像に投影し、同じSuper Pixel内にある
点をクラスタ化し、画像のノードと統合
エッジ間の重みを点群クラスタ間のユークリッド距離とし、最小全域木を作成
 点群のグラフ化
点群を適当な手法でクラスタ化し、ユークリッド距離をもとに最小全域木を作成
(ここでは画像からGround Truthを取得するため、点群のみの推定は行わない)
SLIC Super Pixel 画像へ投影された点群
結合されたグラフ(緑:画像、青:画像+点群)
[Cadena2014]Heterogeneous Sensor
Coverage (3/3)
 KITTIデータセットで評価
 画像と点群それぞれを個別にSemantic Segmentationし、結果
を統合
1. マルチスケールにSegmentation
2. Segmentごとに特徴量算出
3. Random Forestで各画素/点のラベル識別
4. 各データのラベルスコアを結合して、全体のラベルスコアを識別
5. CRFにより隣接したノードのラベルが近くなるよう補正
[Zhang2015] Multi-level Late Fusion(1/3)
 スケールの異なるSuper Pixel
/ SuperVoxelを作成し、それぞ
れから特徴量を計算
[Zhang2015] Multi-level Late Fusion (2/3)
Multi Scale Segmentation
画像/点群から取得する特徴量
 KITTIを拡張したデータセットを使用
ラベルを付与してデータ量を増量
[Zhang2015] Multi-level Late Fusion(3/3)
glob: pixel-wise accuracy, class: class-average accuracy,
bldg: building, sky: sky, road: road, veg: vegetation, sid: sidewalk, car: car, ped: pedestrian, cycl: cyclist, sgn: sign/pole, fnc: fence
マルチスケールの影響の評価
 2D画像と3D点群それぞれでファサードのSegmentationを
行う手法
各ステージの推測ラベルを次のステージの入力に加えること
で、ラベル間のコンテクストを学習(auto-context)
識別器にBoosted DecisionTreeを使用し、stacked
generalizationアルゴリズムで学習
2Dと3Dの認識結果を統合することで性能向上
[Gadde2018]2D/3D Auto-Context(1/4)
[Gadde2018]2D/3D Auto-Context(2/4)
 Auto-Context
Tu, Z. (2008).Auto-context and its application to high-level vision
tasks. IEEE Conference on ComputerVision and Pattern Recognition (CVPR).
Contextを考慮したSemantic Segmentationの手法
ある画素のラベルのProbabilityは周辺の画素のラベルと関連
学習画像に前ステージで学習したClassifierで予測したProbability
Mapを加えることで、ラベル間の同時分布を考慮した事後分布を算
出
ステージを追うごとに、Probability Mapが更新される。赤は学習中に選択されたContext
[Gadde2018]2D/3D Auto-Context(3/4)
 画像特徴
TextonBoost (x17)、座標、RGB、Dense HOG、LBP、各フィルタ
の行/列平均
各画素763次元
 点群特徴
RGB、LAB、法線、Spin Image、地上からの高さ、ファサード平
面からの距離、ファサードの上端からの距離の逆数
各点132次元
 Auto-context特徴
各クラスのProbability、エントロピー、行/列におけるクラスのス
コア、各クラスの最近傍画素までの距離、クラスごとのカラーモ
デル(ガウス分布)、最尤クラスラベルのBounding Box、周辺画
素のクラス分布
[Gadde2018]2D/3D Auto-Context(4/4)
 RueMonge2014 Datasetで評価
ST: ステージ
PW: 各ステージ後にCRFで最適化
2D+3D: 2DのST3と3DのST2の出力を統合後、auto contextを
適用(ST4)
[Piewak2018_2]Improved Semantic Stixels
(1/4)
 LiDARとカメラの情報を統合することで地形によりロバストな
Stixels[1]を生成
 Stixels
主にDepthやSemantic Labelを付与した短冊状の中間表現で、従来
はステレオカメラなどを用いて推定
車両周辺環境をStixelsで表現することで、アプリの処理を高速化
[1]Cordts, M., Rehfeld,T., Schneider, L., Pfeiffer, D., Enzweiler, M., Roth, S., … Franke, U. (2017).The Stixel World:A medium-
level representation of traffic scenes. Image andVision Computing, 68, 40–52.
[Piewak2018_2]Improved Semantic Stixels
(2/4)
 LiDARの縦方向の走査を画像へ投影した列からStixelを
生成
 𝒔𝑖 = 𝑏𝑜𝑡𝑡𝑜𝑚, 𝑡𝑜𝑝, 𝑟𝑎𝑛𝑔𝑒, 𝑙𝑎𝑏𝑒𝑙, 𝑐𝑙𝑎𝑠𝑠
 Stixelの各パラメータ𝑺を、測定データ𝑴 から、事後確率
分布𝑃 𝑺|𝑴 が最大となるように推定
測定データ𝑴は、Depth、LiDARから推定したSemantic Label
(LiLaNetを使用)、及び画像から推定したSemantic Label (FCN
を使用)から成る
class (support, object, sky)の定義
[Piewak2018_2]Improved Semantic Stixels
(3/4)
 事後分布𝑃 𝑺|𝑴 の最大化=エネルギー𝐸 𝑺, 𝑴 を最小
化する𝑺の算出
𝑃 𝑺|𝑴 = 𝑒−𝑬 𝑺,𝑴
𝐸 𝑺, 𝑴 = 𝛩 𝑺, 𝑴 + 𝛺 𝑺 − log 𝑃 𝑴
 𝛩 𝑺, 𝑴
LiDARのDepthとStixelのrangeが近いほど小さい
support、object、skyクラスの妥当性、センサーの妥当性
LiDARから求めたラベルや、画像からのラベルとStixelラベル
が近いほど小さい
 動的計画法で算出
無視(𝑺 によらない)Depth、形状、
Semantic Label
のエネルギー
Stixelの長さと
正確さのバラ
ンスをとる項
(正則化)
[Piewak2018_2]Improved Semantic Stixels
(4/4)
 [Piewak2018]で作成したデータセットを使用して評価
Stixelに対して手動でラベル付けしたもの
通常のステレオカメラによるStixelとの比較
Outlier Rate: Stixelsから外れた点群の率
IoU: GroundTruthのSemantic Labelとのオーバーラップの率
Compression Rate: 点群数からStixel数へどれだけ圧縮された
かの指標
[Felix2017]Deep Projective 3D (1/3)
 以下の3ステップで点群の
Semantic Segmentation
入力点群を多視点に投影して、
複数の画像を生成
それぞれの画像に対して
Semantic Segmentation
画像のSegmentation結果を点群
へ反映(Score Fusion)
 生成画像は、Color、Depth、
Normalの三種類
[Felix2017]Deep Projective 3D (2/3)
 疎な点群から密な画像を生成するために、各点に対してガウ
シアンの点広がり関数を畳み込み
 ノイズの影響を除去するため、各画素のDepthを推定するた
めに、投影された点に対してmean-shiftアルゴリズムを適用
 Semantic SegmentationにはFully Convolutional Networkを使
用し、Color、Depth、Normalsそれぞれのスコアを合計
[Felix2017]Deep Projective 3D (3/3)
 Semantic3Dデータセットで評価
カメラを垂直軸周囲を360度回転させて、30View取得
高さを4回変えて、計30x4視点を使用
[Su2018]SPLATNet (1/4)
 点群を高次元空間上の格子(Permutohedral Lattice)へ
投影することで、点群を直接畳み込み演算
 任意の位置の出力が得られるため、点と画像との特徴
量のマッチングを正確に行える
 ソースコード
http://vis-www.cs.umass.edu/splatnet
[Su2018]SPLATNet (2/4)
 Bilateral Convolutional Layer (BCL): 畳み込み層
点群、画像含む任意次元のデータに適用可能
Splat:
 入力信号を𝑑𝑙次元空間へ投影し、周辺格子に割り当て
Convolve
 格子を𝑑𝑙次元カーネルでフィルタ(畳み込み)
Slice
 格子上の信号から入力位置の出力信号を復元
[Su2018]SPLATNet (3/4)
点群とカメラのマッチング
 カメラと深度センサー間のキャリブレーションがされている場
合、画素を三次元上へ投影できるが、点群中の点の位置とは
ズレ
 Permutohedral Lattice上に投影した場合、周辺格子の信号を
使って、任意の位置の信号を復元可能
点群上の各点へ正確にマッピングできる
[Su2018]SPLATNet (4/4)
実験
 RueMonge2014 Dataset
3D façade segmentation
[Jaritz2018]Sparse and Depth Data with
CNNs (1/3)
 疎な点群データから密なDepthデータの推定とSemantic
Segmentationを同時に行う
 点群データから生成した疎なDepthデータを入力とし、オプショ
ンとしてRGB画像を加え、Encoder-Decoderネットワークによっ
て点群が存在しない領域の補間
[Jaritz2018]Sparse and Depth Data with
CNNs (2/3)
 EncoderはNASNet[1]、DecoderはU-Net[2]をベースに適用
 Ground Truthの存在するUnobserved(値がない)画素のみ学
習
 Depthの逆数のL1損失を使用
 画像とデプスはそれぞれエンコードした状態で統合
[1] Zoph, B.,Vasudevan,V., Shlens, J., & Le, Q.V. (2018). Learning Transferable Architectures for Scalable Image Recognition.
IEEE Conference on ComputerVision and Pattern Recognition.
[2] Ronneberger, O., Fischer, P., & Brox,T. (2015). U-net: Convolutional networks for biomedical image segmentation.
International Conference on Medical Image Computing and Computer-Assisted Intervention, 234–241
[Jaritz2018]Sparse and Depth Data with
CNNs (3/3)
 合成データ(Synthia)と実
データ(Cityscapes)に対して
Semantic Segmentationの結
果を評価
Cityscapesはステレオカメラの
視差からDepthのGround
Truthを取得
[Caltagirone2018]Road Detection with FCN
(1/3)
 Fully Convolutional Networksを用いて、カメラからの画像と
LiDARからの点群を統合し、道路領域を推定
Early Fusion、Late Fusion、Cross Connectionの3パターンで2つのセ
ンサー情報を統合して評価
 LiDAR点群はカメラ画像上へ投影され、X,Y, Zの3チャネル画
像を作成
各画素の値は近傍点群から補間
[Caltagirone2018]Road Detection with FCN
(2/3)
 Early Fusion
LiDARを入力画像のチャネルとして最初に統合
 Late Fusion
LiDARと画像を別々のネットワークで処理し、最終層の手前で統合
 Cross Fusion
LiDARと画像を別々のネットワークで処理し、各層でそれぞれの出
力をそれぞれのネットワークへ加える
[Caltagirone2018]Road Detection with FCN
(3/3)
 KITTI Roadに対して、影や反射などのより困難なデータを加え
たデータセットで評価 (MaxF: F-measure, PRE: Precision, REC: Recall)
 KITTI Road
まとめ
 カメラとLiDAR両方を用いたSemantic Segmentationにつ
いて調査を行いました。
 LiDAR-Camera Fusionには様々なアプローチが提案され
ており、定石的なアプローチは見当たりませんでした。
Deep Learning以前はCRFを用いるのが一般的
Deep Learning以後はEncoder-Decoderネットワークなどによっ
て、画像と点群を同一ドメインで扱うアプローチと、点群を画像
ドメインへ投影して扱うアプローチがある
 疎な点群に対しては、LiLaNet、Improved Semantic Stixels、
Sparse and Depth Data with CNNなどが有効と思われま
す。

More Related Content

PDF
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
PDF
LiDAR点群と画像とのマッピング
PDF
Sift特徴量について
PPTX
強化学習アルゴリズムPPOの解説と実験
PDF
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
PDF
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
PDF
画像生成・生成モデル メタサーベイ
PDF
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
LiDAR点群と画像とのマッピング
Sift特徴量について
強化学習アルゴリズムPPOの解説と実験
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
画像生成・生成モデル メタサーベイ
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~

What's hot (20)

PDF
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
PPTX
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
PPTX
SLAM勉強会(PTAM)
PPTX
Structure from Motion
PPTX
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
PDF
3次元レジストレーション(PCLデモとコード付き)
PDF
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
PDF
SLAMチュートリアル大会資料(ORB-SLAM)
PDF
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
PDF
画像認識の初歩、SIFT,SURF特徴量
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PDF
CVPR2018のPointCloudのCNN論文とSPLATNet
PDF
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
PDF
Point net
PPTX
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
PDF
Semantic segmentation
PDF
20180527 ORB SLAM Code Reading
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
PDF
オープンソース SLAM の分類
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
SLAM勉強会(PTAM)
Structure from Motion
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
3次元レジストレーション(PCLデモとコード付き)
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SLAMチュートリアル大会資料(ORB-SLAM)
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
画像認識の初歩、SIFT,SURF特徴量
[DL輪読会]MetaFormer is Actually What You Need for Vision
CVPR2018のPointCloudのCNN論文とSPLATNet
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Point net
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Semantic segmentation
20180527 ORB SLAM Code Reading
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
オープンソース SLAM の分類
Ad

Similar to 20190131 lidar-camera fusion semantic segmentation survey (20)

PDF
object detection with lidar-camera fusion: survey
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
PDF
object detection with lidar-camera fusion: survey (updated)
PDF
Semantic segmentation2
PDF
20190307 visualslam summary
PDF
Visual slam
PDF
20181130 lidar object detection survey
PPTX
3Dマップを活用したVisual Localization
PDF
【チュートリアル】コンピュータビジョンによる動画認識 v2
PPTX
2017-05-30_deepleaning-and-chainer
PPTX
世界最高精度50cmの3D地図の世界へ 「AW3D」を支える最先端の衛星ビッグデータ解析(NTTデータ テクノロジーカンファレンス 2019 講演資料、2...
PDF
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
PDF
20200704 bsp net
PDF
全力解説!Transformer
PDF
2020/07/04 BSP-Net (CVPR2020)
PDF
MobileNeRF
PDF
Yoshio Kato Bachelor Thesis
PDF
ConditionalPointDiffusion.pdf
PDF
Contest 02 presentation (RT-Middleware Contest of SI2017)
PPTX
3次元計測とフィルタリング
object detection with lidar-camera fusion: survey
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
object detection with lidar-camera fusion: survey (updated)
Semantic segmentation2
20190307 visualslam summary
Visual slam
20181130 lidar object detection survey
3Dマップを活用したVisual Localization
【チュートリアル】コンピュータビジョンによる動画認識 v2
2017-05-30_deepleaning-and-chainer
世界最高精度50cmの3D地図の世界へ 「AW3D」を支える最先端の衛星ビッグデータ解析(NTTデータ テクノロジーカンファレンス 2019 講演資料、2...
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
20200704 bsp net
全力解説!Transformer
2020/07/04 BSP-Net (CVPR2020)
MobileNeRF
Yoshio Kato Bachelor Thesis
ConditionalPointDiffusion.pdf
Contest 02 presentation (RT-Middleware Contest of SI2017)
3次元計測とフィルタリング
Ad

More from Takuya Minagawa (18)

PDF
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
PDF
「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
PDF
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
PDF
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
PDF
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
PDF
点群SegmentationのためのTransformerサーベイ
PDF
Learning to Solve Hard Minimal Problems
PDF
楽しいコンピュータビジョンの受託仕事
PDF
20210711 deepI2P
PDF
20201010 personreid
PDF
20200910コンピュータビジョン今昔物語(JPTA講演資料)
PDF
20190825 vins mono
PDF
20190706cvpr2019_3d_shape_representation
PDF
run Keras model on opencv
PDF
3DFeat-Net
PDF
20180424 orb slam
PDF
Curiosity driven exploration
PDF
「コンピュータビジョン勉強会@関東」紹介資料
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
点群SegmentationのためのTransformerサーベイ
Learning to Solve Hard Minimal Problems
楽しいコンピュータビジョンの受託仕事
20210711 deepI2P
20201010 personreid
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20190825 vins mono
20190706cvpr2019_3d_shape_representation
run Keras model on opencv
3DFeat-Net
20180424 orb slam
Curiosity driven exploration
「コンピュータビジョン勉強会@関東」紹介資料

20190131 lidar-camera fusion semantic segmentation survey

  • 2. 自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 「コンピュータビジョン勉強会@関東」主催 博士(工学) 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) お問い合わせ:http://visitlab.jp
  • 3. 本資料について  本資料は主にLiDARから取得した道路上の点群データと カメラ、<両方>を用いてSemantic Segmentationを行う技 術について調査結果をまとめたものです。 屋内での事例しかないものについては調査から外しました。  前回調査した点群データ<のみ>を用いたSemantic Segmentationについて、文献を1つ追加しました。 Improved Semantic StixelというLiDAR-Camera Fusionの手法の 中で利用されていたため
  • 4. 関連資料  LiDAR-Camera Fusionによる道路上の物体検出サーベイ https://www.slideshare.net/takmin/object-detection-with- lidarcamera-fusion-survey-updated  LiDARによる道路上の物体検出サーベイ https://www.slideshare.net/takmin/20181130-lidar-object- detection-survey  LiDARによる道路上のSemantic Segmentationサーベイ https://www.slideshare.net/takmin/20181228-lidarsemantic- segmentation
  • 5. 点群のみを使ったSemantic Segmentation 前回調査からの追加分  [Piewak2018] Piewak, F., Pinggera, P., Sch, M., Peter, D., Schwarz, B., Schneider, N., … Ag, D. (2018). Boosting LiDAR-based Semantic Labeling by Cross-Modal Training Data Generation. ArXiv, 1804.09915.
  • 6. [Piewak2018]LiLaNet (1/3)  Semi-denseな点群(VelodyneVLP32C LiDARでの取得を想定) に対して高精度なSemantic Labelingを行うCNNモデル 点群をシリンダー上へ投影して画像化(距離と反射率の2チャネル) したものを入力 低解像度で非対称のシリンダ投影画像を扱うために、非対称カーネ ルの畳み込みと統合を行うLiLaBlockを導入
  • 7. [Piewak2018]LiLaNet (2/3)  学習データの作成(点群へのラベル付け)を自動化 (Autolabeling) 画像に対し、既存手法でSemantic Segmentation 点群を画像へ投影し、各点のラベルを対応画素から決定 LiDARの測定時間(各点を違う時刻で測定)とカメラの測定時間(前 画素を同時刻に取得)のずれを補正
  • 9. LiDAR-Camera Fusion Semantic Segmentation  [Cadena2014] Cadena, C., & Koˇ, J. (2014). Semantic Segmentation with Heterogeneous Sensor Coverages. IEEE International Conference on Robotics and Automation (ICRA).  [Zhang2015]Zhang, R., Candra, S.A.,Vetter, K., & Zakhor,A. (2015). Sensor Fusion for Semantic Segmentation of Urban Scenes. IEEE International Conference on Robotics and Automation.  [Gadde2018]Gadde, R., Jampani,V., Marlet, R., & Gehler, P.V. (2018). Efficient 2D and 3D Facade Segmentation Using Auto- Context. IEEETransactions on Pattern Analysis and Machine Intelligence, 40(5), 1273–1280.  [Felix2017]Felix, J., Danelljan, M.,Tosteberg, P., Bhat, G., Khan, F. S., & Felsberg, M. (2017). Deep Projective 3D Semantic Segmentation. In International Conference on Computer Analysis of Images and Patterns.
  • 10. LiDAR-Camera Fusion Semantic Segmentation  [Su2018]Su, H., Jampani,V., Sun, D., Maji, S., Kalogerakis, E.,Yang, M.-H., & Kautz, J. (2018). SPLATNet: Sparse Lattice Networks for Point Cloud Processing. IEEE Conference on ComputerVision and Pattern Recognition.  [Jaritz2018]Jaritz, M., Charette, R. de,Wirbel, E., Perrotton, X., & Nashashibi, F. (2018). Sparse and Dense Data with CNNs: Depth Completion and Semantic Segmentation. International Conference on 3DVision (3DV).  [Piewak2018_2]Piewak, F., Pinggera, P., Enzweiler, M., Pfeiffer, D., & Zöllner, M. (2018). Improved Semantic Stixels via Multimodal Sensor Fusion. ArXiv, 1809.08993v2.  [Caltagirone2018]Caltagirone, L., Bellone, M., Svensson, L., & Wahde, M. (2018). LIDAR-Camera Fusion for Road Detection Using Fully Convolutional Neural Networks. ArXiv, 1809.07941.
  • 11. [Cadena2014]Heterogeneous Sensor Coverage (1/3)  カメラとLiDARではそもそも視野が異なるため、画像と点 群両方のデータが取れる領域だけでなく、画像のみ、点 群のみの領域が存在  それら3パターンの領域をCRFを用いて統一的に Semantic Segmentationする手法 緑:画像データのある領域 青:点群データのある領域
  • 12. [Cadena2014]Heterogeneous Sensor Coverage (2/3) 以下の3つのグラフを結合し、CRFでラベル推定  画像のグラフ化 SLIC Super Pixelを生成してノードとし、隣接関係をエッジであらわす エッジの重みをLAB色空間のノード間距離として、最小全域木を作成  画像と点群のグラフ化 画像と点群がともにある領域では、点群を画像に投影し、同じSuper Pixel内にある 点をクラスタ化し、画像のノードと統合 エッジ間の重みを点群クラスタ間のユークリッド距離とし、最小全域木を作成  点群のグラフ化 点群を適当な手法でクラスタ化し、ユークリッド距離をもとに最小全域木を作成 (ここでは画像からGround Truthを取得するため、点群のみの推定は行わない) SLIC Super Pixel 画像へ投影された点群 結合されたグラフ(緑:画像、青:画像+点群)
  • 13. [Cadena2014]Heterogeneous Sensor Coverage (3/3)  KITTIデータセットで評価
  • 14.  画像と点群それぞれを個別にSemantic Segmentationし、結果 を統合 1. マルチスケールにSegmentation 2. Segmentごとに特徴量算出 3. Random Forestで各画素/点のラベル識別 4. 各データのラベルスコアを結合して、全体のラベルスコアを識別 5. CRFにより隣接したノードのラベルが近くなるよう補正 [Zhang2015] Multi-level Late Fusion(1/3)
  • 15.  スケールの異なるSuper Pixel / SuperVoxelを作成し、それぞ れから特徴量を計算 [Zhang2015] Multi-level Late Fusion (2/3) Multi Scale Segmentation 画像/点群から取得する特徴量
  • 16.  KITTIを拡張したデータセットを使用 ラベルを付与してデータ量を増量 [Zhang2015] Multi-level Late Fusion(3/3) glob: pixel-wise accuracy, class: class-average accuracy, bldg: building, sky: sky, road: road, veg: vegetation, sid: sidewalk, car: car, ped: pedestrian, cycl: cyclist, sgn: sign/pole, fnc: fence マルチスケールの影響の評価
  • 18. [Gadde2018]2D/3D Auto-Context(2/4)  Auto-Context Tu, Z. (2008).Auto-context and its application to high-level vision tasks. IEEE Conference on ComputerVision and Pattern Recognition (CVPR). Contextを考慮したSemantic Segmentationの手法 ある画素のラベルのProbabilityは周辺の画素のラベルと関連 学習画像に前ステージで学習したClassifierで予測したProbability Mapを加えることで、ラベル間の同時分布を考慮した事後分布を算 出 ステージを追うごとに、Probability Mapが更新される。赤は学習中に選択されたContext
  • 19. [Gadde2018]2D/3D Auto-Context(3/4)  画像特徴 TextonBoost (x17)、座標、RGB、Dense HOG、LBP、各フィルタ の行/列平均 各画素763次元  点群特徴 RGB、LAB、法線、Spin Image、地上からの高さ、ファサード平 面からの距離、ファサードの上端からの距離の逆数 各点132次元  Auto-context特徴 各クラスのProbability、エントロピー、行/列におけるクラスのス コア、各クラスの最近傍画素までの距離、クラスごとのカラーモ デル(ガウス分布)、最尤クラスラベルのBounding Box、周辺画 素のクラス分布
  • 20. [Gadde2018]2D/3D Auto-Context(4/4)  RueMonge2014 Datasetで評価 ST: ステージ PW: 各ステージ後にCRFで最適化 2D+3D: 2DのST3と3DのST2の出力を統合後、auto contextを 適用(ST4)
  • 21. [Piewak2018_2]Improved Semantic Stixels (1/4)  LiDARとカメラの情報を統合することで地形によりロバストな Stixels[1]を生成  Stixels 主にDepthやSemantic Labelを付与した短冊状の中間表現で、従来 はステレオカメラなどを用いて推定 車両周辺環境をStixelsで表現することで、アプリの処理を高速化 [1]Cordts, M., Rehfeld,T., Schneider, L., Pfeiffer, D., Enzweiler, M., Roth, S., … Franke, U. (2017).The Stixel World:A medium- level representation of traffic scenes. Image andVision Computing, 68, 40–52.
  • 22. [Piewak2018_2]Improved Semantic Stixels (2/4)  LiDARの縦方向の走査を画像へ投影した列からStixelを 生成  𝒔𝑖 = 𝑏𝑜𝑡𝑡𝑜𝑚, 𝑡𝑜𝑝, 𝑟𝑎𝑛𝑔𝑒, 𝑙𝑎𝑏𝑒𝑙, 𝑐𝑙𝑎𝑠𝑠  Stixelの各パラメータ𝑺を、測定データ𝑴 から、事後確率 分布𝑃 𝑺|𝑴 が最大となるように推定 測定データ𝑴は、Depth、LiDARから推定したSemantic Label (LiLaNetを使用)、及び画像から推定したSemantic Label (FCN を使用)から成る class (support, object, sky)の定義
  • 23. [Piewak2018_2]Improved Semantic Stixels (3/4)  事後分布𝑃 𝑺|𝑴 の最大化=エネルギー𝐸 𝑺, 𝑴 を最小 化する𝑺の算出 𝑃 𝑺|𝑴 = 𝑒−𝑬 𝑺,𝑴 𝐸 𝑺, 𝑴 = 𝛩 𝑺, 𝑴 + 𝛺 𝑺 − log 𝑃 𝑴  𝛩 𝑺, 𝑴 LiDARのDepthとStixelのrangeが近いほど小さい support、object、skyクラスの妥当性、センサーの妥当性 LiDARから求めたラベルや、画像からのラベルとStixelラベル が近いほど小さい  動的計画法で算出 無視(𝑺 によらない)Depth、形状、 Semantic Label のエネルギー Stixelの長さと 正確さのバラ ンスをとる項 (正則化)
  • 24. [Piewak2018_2]Improved Semantic Stixels (4/4)  [Piewak2018]で作成したデータセットを使用して評価 Stixelに対して手動でラベル付けしたもの 通常のステレオカメラによるStixelとの比較 Outlier Rate: Stixelsから外れた点群の率 IoU: GroundTruthのSemantic Labelとのオーバーラップの率 Compression Rate: 点群数からStixel数へどれだけ圧縮された かの指標
  • 25. [Felix2017]Deep Projective 3D (1/3)  以下の3ステップで点群の Semantic Segmentation 入力点群を多視点に投影して、 複数の画像を生成 それぞれの画像に対して Semantic Segmentation 画像のSegmentation結果を点群 へ反映(Score Fusion)  生成画像は、Color、Depth、 Normalの三種類
  • 26. [Felix2017]Deep Projective 3D (2/3)  疎な点群から密な画像を生成するために、各点に対してガウ シアンの点広がり関数を畳み込み  ノイズの影響を除去するため、各画素のDepthを推定するた めに、投影された点に対してmean-shiftアルゴリズムを適用  Semantic SegmentationにはFully Convolutional Networkを使 用し、Color、Depth、Normalsそれぞれのスコアを合計
  • 27. [Felix2017]Deep Projective 3D (3/3)  Semantic3Dデータセットで評価 カメラを垂直軸周囲を360度回転させて、30View取得 高さを4回変えて、計30x4視点を使用
  • 28. [Su2018]SPLATNet (1/4)  点群を高次元空間上の格子(Permutohedral Lattice)へ 投影することで、点群を直接畳み込み演算  任意の位置の出力が得られるため、点と画像との特徴 量のマッチングを正確に行える  ソースコード http://vis-www.cs.umass.edu/splatnet
  • 29. [Su2018]SPLATNet (2/4)  Bilateral Convolutional Layer (BCL): 畳み込み層 点群、画像含む任意次元のデータに適用可能 Splat:  入力信号を𝑑𝑙次元空間へ投影し、周辺格子に割り当て Convolve  格子を𝑑𝑙次元カーネルでフィルタ(畳み込み) Slice  格子上の信号から入力位置の出力信号を復元
  • 30. [Su2018]SPLATNet (3/4) 点群とカメラのマッチング  カメラと深度センサー間のキャリブレーションがされている場 合、画素を三次元上へ投影できるが、点群中の点の位置とは ズレ  Permutohedral Lattice上に投影した場合、周辺格子の信号を 使って、任意の位置の信号を復元可能 点群上の各点へ正確にマッピングできる
  • 31. [Su2018]SPLATNet (4/4) 実験  RueMonge2014 Dataset 3D façade segmentation
  • 32. [Jaritz2018]Sparse and Depth Data with CNNs (1/3)  疎な点群データから密なDepthデータの推定とSemantic Segmentationを同時に行う  点群データから生成した疎なDepthデータを入力とし、オプショ ンとしてRGB画像を加え、Encoder-Decoderネットワークによっ て点群が存在しない領域の補間
  • 33. [Jaritz2018]Sparse and Depth Data with CNNs (2/3)  EncoderはNASNet[1]、DecoderはU-Net[2]をベースに適用  Ground Truthの存在するUnobserved(値がない)画素のみ学 習  Depthの逆数のL1損失を使用  画像とデプスはそれぞれエンコードした状態で統合 [1] Zoph, B.,Vasudevan,V., Shlens, J., & Le, Q.V. (2018). Learning Transferable Architectures for Scalable Image Recognition. IEEE Conference on ComputerVision and Pattern Recognition. [2] Ronneberger, O., Fischer, P., & Brox,T. (2015). U-net: Convolutional networks for biomedical image segmentation. International Conference on Medical Image Computing and Computer-Assisted Intervention, 234–241
  • 34. [Jaritz2018]Sparse and Depth Data with CNNs (3/3)  合成データ(Synthia)と実 データ(Cityscapes)に対して Semantic Segmentationの結 果を評価 Cityscapesはステレオカメラの 視差からDepthのGround Truthを取得
  • 35. [Caltagirone2018]Road Detection with FCN (1/3)  Fully Convolutional Networksを用いて、カメラからの画像と LiDARからの点群を統合し、道路領域を推定 Early Fusion、Late Fusion、Cross Connectionの3パターンで2つのセ ンサー情報を統合して評価  LiDAR点群はカメラ画像上へ投影され、X,Y, Zの3チャネル画 像を作成 各画素の値は近傍点群から補間
  • 36. [Caltagirone2018]Road Detection with FCN (2/3)  Early Fusion LiDARを入力画像のチャネルとして最初に統合  Late Fusion LiDARと画像を別々のネットワークで処理し、最終層の手前で統合  Cross Fusion LiDARと画像を別々のネットワークで処理し、各層でそれぞれの出 力をそれぞれのネットワークへ加える
  • 37. [Caltagirone2018]Road Detection with FCN (3/3)  KITTI Roadに対して、影や反射などのより困難なデータを加え たデータセットで評価 (MaxF: F-measure, PRE: Precision, REC: Recall)  KITTI Road
  • 38. まとめ  カメラとLiDAR両方を用いたSemantic Segmentationにつ いて調査を行いました。  LiDAR-Camera Fusionには様々なアプローチが提案され ており、定石的なアプローチは見当たりませんでした。 Deep Learning以前はCRFを用いるのが一般的 Deep Learning以後はEncoder-Decoderネットワークなどによっ て、画像と点群を同一ドメインで扱うアプローチと、点群を画像 ドメインへ投影して扱うアプローチがある  疎な点群に対しては、LiLaNet、Improved Semantic Stixels、 Sparse and Depth Data with CNNなどが有効と思われま す。