Masked Autoencoders for Point Cloud Self-Supervised Learning

#171

summarized by : Naoya Chiba

Yatian Pang; Wenxiao Wang; Francis E.H. Tay; Wei Liu; Yonghong Tian; Li Yuan

どんな論文か？

三次元点群のエンコーダーとして，Transformerベースのオートエンコーダーをマスクしたデータに対する事前学習と組み合わせて用いる手法の提案．事前学習により様々なタスクに転移学習して性能が向上していることを確認した．

新規性

言語や画像におけるTransformerの大規模事前学習モデルで用いられたアプローチ（マスクされた入力から元のデータ全体を推定する）を点群にも応用．点群をFPSでダウンサンプリングし各点近傍をパッチとして抽出，いくつかをマスクしてTransformerで変換，各パッチが入力パッチと近くなるようにCDでロスを計算する．

結果

事前学習にShapeNetを用い，クラス分類（ScanObjectNN，ModelNet40）・Few-shotクラス分類（ModelNet40）・パーツセグメンテーション（ShapeNetPart）で検証，それぞれで優れた託す性能を達成した．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．