QPIC: Query-Based Pairwise Human-Object Interaction Detection With Image-Wide Contextual Information

#615

summarized by : QIU YUE

Masato Tamura, Hiroki Ohashi, Tomoaki Yoshinaga

どんな論文か？

Human-Object Interaction 検出のための新たなTransformerベースの手法を提案。既存のCNN-basedの手法ではより広域的領域の関係性の推定が弱い傾向になり、画像中に複数の候補領域がある際にうまく推定できないことがある。それに対して、局所・全局的画像を見るようなことが可能な1-StageのTransformer手法を提案し、既存のデータセットにおいてSoTAを達成。

新規性

HOIタスクに対して、画像の局所・全局領域間の相関関係が重要であり、このタスクに対してTransformer構造がとても合致する．この論文でTransformer構造をHOIタスクに導入した．

結果

定性実験結果により、提案手法がHOIに関わる重要な画像領域にAttentionする傾向が検証できた．また，既存のデータセットHICO-DETとV-COCOにおいてSoTAなmAP精度を実現した．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．