#446
summarized by : Naoya Chiba
Revealing Occlusions With 4D Neural Fields

どんな論文か?

RGB-D動画において,物体が隠れて見えなくなった場合にもトラッキングし続けるための手法を提案.点群をPointTransformerで入力しNeural Fieldで出力,三次元空間+時刻の4次元でクエリされたときに入力点群シーケンスに対してAttentionを張って,各点での密度・カラー・セマンティックラベル・インスタンスラベルを推定するように学習する.
placeholder

新規性

RGB-Dシーケンスををまるごと用いてシーンを再構成するアプローチが新規.Attentionを用いることで,各時刻では隠れていても他の時刻で観測された点群からクエリ点の情報を集約する.見えていない部分についても幾何的な一貫性を保つような自己教師と,セマンティックセグメンテーション,インスタンスごとにトラッキング・伝播させたインスタンスラベルによるインスタンスセグメンテーションを合わせて用いる.

結果

CATERをベースに新たなデータセットGREATERを構築.立方体,円錐,円柱,球を8~12個含むシーンで構成される.自動運転用のシミュレータCARLAによって得られるデータセットでも検証.おおむね一貫性のあるシーン理解を実現したが,長時間隠れている部分などでは誤った再構成もなされている.

その他(なぜ通ったか?等)