#172
summarized by : Hirokatsu Kataoka
A Closer Look at Invariances in Self-Supervised Pre-training for 3D Vision

どんな論文か?

3D Visionに関する事前学習の調査論文。点群/ボクセルや距離/RGB画像を統合等的に調査することで、従来法では明らかにされてクロスモダリティの解析を実施した。
placeholder

新規性

3Dエンコーダーと距離画像エンコーダーを同時事前学習することに成功したことで、モダリティを跨いで学習できることや、相補的な表現を捉えることによる精度向上が見込める。調査の結果、Image-Point, Depth-Pointが良いことがわかった。

結果

提案手法により事前学習されたVoteNetは、SUN RGB-DやScanNetにおける従来の最高水準の性能より高い精度が出たと報告されている。VoteNetを使っていてScanNet で64.2、SUN RGB-Dで60.2の精度をAP25%時に出している。

その他(なぜ通ったか?等)

RGB-Dや点群間の同時学習を実施するフレームワークを提案した。