#755
summarized by : QIUYUE
Embodied Question Answering in Photorealistic Environments With Point Cloud Perception

どんな論文か?

従来のEQAタスクにはVisual側にRGB画像序列が用いられている.EQAにRGBに加えてPoint Cloudデータの使用を提案(PointNet++).更に,従来のEQAデータセットがCG House 3Dデータセットを使用し,RealデータセットのMatterport 3DのEQA版を提案.EQAの入力側とNavigationのモジュールに大量な実験を行い,詳細的な分析を行った.
placeholder

新規性

Real EQAデータセットMP3D-EQA v1の提案.EQAの入力やNavigationの方法について大量な実験を行い,いくつかの面白い結論を得られた.例①Point Cloudを用いたらOcclusion領域をよける能力が向上;②Navigationの手法意外とForward-Onlyなどが強い.

結果

①NavigationのモジュールのAblations実験によりForward-Onlyが強い;②Inflection Weightingがナビゲーションにおいて有用;③Memoryモジュールが有用;④点群+RGBが最も良い結果を得られた.などなど.

その他(なぜ通ったか?等)

徹底的なAblations実験の有用性が高い.将来的にEQAの研究を行う人にどういうような入力が良いのかやNavigationのモジュールの辺り色々知見を紹介した.