#91
summarized by : Haruhi Shida
Multimodal Transformer for Automatic 3D Annotation and Object Detection

どんな論文か?

3D物体検出の学習用に収集されたデータセット数は増えているが,アノテーションコストにかかる手間は変わっていないため未だカスタマイズデータの作成が容易でなく,研究の発展を阻害していることを指摘.Lidar点群と対応する画像を用いて,弱い2Dバウンディングボックスから3Dのバウンディングボックスを生成するオートラベラー Mtransを提案.
placeholder

新規性

既存の手法は屋外Lidar点群のスパース問題に悩まされていた.本手法では,multi-modal self attention機構と自己教師設計によりimage画像から余分な3D点を生成,スパース性を解消することで既存のオートラベラーを凌駕する性能を達成,既存のオートラベラーが抱える問題を解決した.

結果

本手法は実験で既存のオートラベラーを大幅に凌駕しており,人間のアノテーションに匹敵する3Dバウンディングボックスアノテーションを生成可能である,ということを実験で実示した.またMtransを用いて,3D物体検出の精度を向上させることも可能である.(詳しくは添付図を参照)

その他(なぜ通ったか?等)

【Github】 https://github.com/Cliu2/MTrans 【添付画像】 KITTI testとvalを用いたオートアノテーションと既存の100%教師での学習結果比較