#476
summarized by : QIUYUE
Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object Interactions

どんな論文か?

人物interactionsにおけるFew-shot LearningやCompositional Reasoningに関する検討が少なかった。ここで、上記のための新たなデータセットを提案し、既存手法を評価した。提案データセットでは人間と物体関係の関係のみが異なるネガテイブサンプルを用意され、さらにテキストセットでは物体、関係、もしくはその両方ともUnknownの設定でデータを用意されている。
placeholder

新規性

新規な大規模Few-shotなHOIデータセットを提案。提案データセットでは特にInteractionラベルのFine grained認識のため、Interactionラベルのみ異なるようなネガティブサンプルを用意している。また、提案データセットでUnknown 物体、Unknown Interaction、Unknown 物体 とInteraction両方の評価を可能にした。

結果

人間の推定精度が91パーセントに対して、既存手法の最も良い精度が62パーセントになる。上記のところから、提案のBongard-HOIデータセットは将来的にFew-shotのHuman-object interactionsの良いベンチマークになる。

その他(なぜ通ったか?等)

Unseen objectとactionは少し定義が変。Unseenなので、どうやって識別するのか良くわからない。