- …
- …
#491
summarized by : QIUYUE
どんな論文か?
人間が他の人の行動(例:テニス試合)を見て、物体のアフォーダンスを学習可能(どうやってテニスのラケットを持つかを学習)。上記のようなプロセスを実現するための新たなタスク、データセットと手法を提案。提案タスクでは、Exocentric画像からアフォーダンスをGroundingし、さらにそのような知識をEgocentric画像に転移する。
新規性
新しいタスク:Exocentric画像からAffordanceをGroundingし、さらにそれをEgocentric画像に転移するタスクを提案。また、上記のための新たな大規模データセットAGD20Kを提案。また、新たなTransformerベース手法も提案し、提案データセットでSOTAを達成。
結果
提案手法を用いて、有効的にExocentric2次元画像から物体のAffordanceを学習できる。さらに、そのような結果をEgocentricとつなぐ事ができる(人間も同じように他の人の行動/demoを見て(Exocentric)、自分でもできるようになる(Egocentric))。また、提案データセットにおいて提案のTransformer手法が最も高い精度を達成した。
その他(なぜ通ったか?等)
画像からAffordanceを学習するアイデアが面白い。しかし、人と物体のペアが多いため、結構大規模なデータセットが必要そう。2次元画像から3次元特徴の導入や、CGベースデータセットの導入や、物体共通なAffordance的なMetaな知識などが性能向上に貢献できそう。
- …
- …