What To Look at and Where: Semantic and Spatial Refined Transformer for Detecting Human-Object Interactions

#383

summarized by : Kazuki Omi

A S M Iftekhar; Hao Chen; Kaustav Kundu; Xinyu Li; Joseph Tighe; Davide Modolo

どんな論文か？

人間と物体の相互作用を検出するタスクのためのTransformerベースのモデルを提案している．エンコーダーの出力をSupport Feature Generatorに入力し，オブジェクトとアクション（OA）の予測候補を推論しサポート特徴を出力する．サポート特徴量はQuery Refinerに入力され，事前に用意された(OA)候補のクエリとクロスアテンションを行い注目したいクエリを絞る．

新規性

既存のTransformerベースの人間と物体の相互作用(Human-Object Interaction)を検出するモデルはデコーダーの改善に焦点を当てているものが多いが，提案手法ではデコーダーに渡すクエリを洗練することに焦点を当てている．

結果

V-COCO, HICO-DETといったデータセットにおいてSOTAと比較すると，バックボーンにResNet50を用いた場合は約5%，ResNet-101を用いた場合は約10%の向上が見られた．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．