#383
summarized by : Kazuki Omi
What To Look at and Where: Semantic and Spatial Refined Transformer for Detecting Human-Object Interactions

どんな論文か?

人間と物体の相互作用を検出するタスクのためのTransformerベースのモデルを提案している. エンコーダーの出力をSupport Feature Generatorに入力し,オブジェクトとアクション(OA)の予測候補を推論しサポート特徴を出力する.サポート特徴量はQuery Refinerに入力され,事前に用意された(OA)候補のクエリとクロスアテンションを行い注目したいクエリを絞る.
placeholder

新規性

既存のTransformerベースの人間と物体の相互作用(Human-Object Interaction)を検出するモデルはデコーダーの改善に焦点を当てているものが多いが,提案手法ではデコーダーに渡すクエリを洗練することに焦点を当てている.

結果

V-COCO, HICO-DETといったデータセットにおいてSOTAと比較すると,バックボーンにResNet50を用いた場合は約5%,ResNet-101を用いた場合は約10%の向上が見られた.

その他(なぜ通ったか?等)