Learning Spatial Common Sense With Geometry-Aware Recurrent Networks

#873

summarized by : QIUYUE

Hsiao-Yu Fish Tung, Ricson Cheng, Katerina Fragkiadaki

どんな論文か？

Geometry-Aware RNN手法を提案．マルチ視点の2D画像の入力から，同時にego motion推定と3D scene representation学習を行う．具体的に，まず入力の2次元画像の特徴を4D tensorに射影し，射影した特徴を3D CNNで特徴を学習．異なるタイムステップの特徴をEgoMotion推定ネットワークでアライメン．GRU構造で異なるタイムステップの情報を統合．

新規性

①2D画像特徴を3Dに射影し，3D CNNにより2次元画像の三次元特徴を捉える．②従来の手法（例：GQN (Generative Query Network)）と比べ，egomotion-stabilized convolutionsを導入し，シーンの3次元情報的一致性を高めた．

結果

2つのタスク：①新しい視点でのRendering②3D物体検出で提案3D scene Representationの有効性，一致性を示した．

その他（なぜ通ったか？等）

①GRUで異なるタイムステップの情報を統合②ego motion predictionを行っているの2つのパーツを提案したところが従来の手法GQNと比べ，解釈性が高い．計算コストの削減ができたら大規模シーンへの適応が期待できる．

このページで利用されている画像は論文から引用しています．