Learning Affordance Grounding From Exocentric Images

#491

summarized by : QIUYUE

Hongchen Luo; Wei Zhai; Jing Zhang; Yang Cao; Dacheng Tao

どんな論文か？

人間が他の人の行動（例：テニス試合）を見て、物体のアフォーダンスを学習可能（どうやってテニスのラケットを持つかを学習）。上記のようなプロセスを実現するための新たなタスク、データセットと手法を提案。提案タスクでは、Exocentric画像からアフォーダンスをGroundingし、さらにそのような知識をEgocentric画像に転移する。

新規性

新しいタスク：Exocentric画像からAffordanceをGroundingし、さらにそれをEgocentric画像に転移するタスクを提案。また、上記のための新たな大規模データセットAGD20Kを提案。また、新たなTransformerベース手法も提案し、提案データセットでSOTAを達成。

結果

提案手法を用いて、有効的にExocentric2次元画像から物体のAffordanceを学習できる。さらに、そのような結果をEgocentricとつなぐ事ができる（人間も同じように他の人の行動／demoを見て（Exocentric）、自分でもできるようになる（Egocentric））。また、提案データセットにおいて提案のTransformer手法が最も高い精度を達成した。

その他（なぜ通ったか？等）

画像からAffordanceを学習するアイデアが面白い。しかし、人と物体のペアが多いため、結構大規模なデータセットが必要そう。２次元画像から３次元特徴の導入や、CGベースデータセットの導入や、物体共通なAffordance的なMetaな知識などが性能向上に貢献できそう。

このページで利用されている画像は論文から引用しています．