#491
summarized by : QIUYUE
Learning Affordance Grounding From Exocentric Images

どんな論文か?

人間が他の人の行動(例:テニス試合)を見て、物体のアフォーダンスを学習可能(どうやってテニスのラケットを持つかを学習)。上記のようなプロセスを実現するための新たなタスク、データセットと手法を提案。提案タスクでは、Exocentric画像からアフォーダンスをGroundingし、さらにそのような知識をEgocentric画像に転移する。
placeholder

新規性

新しいタスク:Exocentric画像からAffordanceをGroundingし、さらにそれをEgocentric画像に転移するタスクを提案。また、上記のための新たな大規模データセットAGD20Kを提案。また、新たなTransformerベース手法も提案し、提案データセットでSOTAを達成。

結果

提案手法を用いて、有効的にExocentric2次元画像から物体のAffordanceを学習できる。さらに、そのような結果をEgocentricとつなぐ事ができる(人間も同じように他の人の行動/demoを見て(Exocentric)、自分でもできるようになる(Egocentric))。また、提案データセットにおいて提案のTransformer手法が最も高い精度を達成した。

その他(なぜ通ったか?等)

画像からAffordanceを学習するアイデアが面白い。しかし、人と物体のペアが多いため、結構大規模なデータセットが必要そう。2次元画像から3次元特徴の導入や、CGベースデータセットの導入や、物体共通なAffordance的なMetaな知識などが性能向上に貢献できそう。