#385
summarized by : Kazuki Omi
Human-Object Interaction Detection via Disentangled Transformer

どんな論文か?

人間とオブジェクトの相互作用を推定するHuman-Object Interaction (HOI) 検出タスクのためのモデルを提案. インスタンスストリーム(人間とオブジェクトを推定)とインタラクションストリーム(相互作用を推定)を分離している.
placeholder

新規性

従来の手法では1つのエンコーダーから抽出された特徴を入力とし1つのデコーダーが人物,物体,相互作用の3つを予測するもの,または2つのデコーダーがそれぞれインスタンスと相互作用を予測しマッチングさせる手法があったが,提案手法ではデコーダーだけでなく,エンコーダーもそれぞれのタスク用に用意した.

結果

HICO-DETとV-COCOの2つのデータセットで実験を行い,どちらのデータセットにおいてもSOTAを達成.

その他(なぜ通ったか?等)

人物と物体の検出とインタラクションを分類するためには異なる領域に焦点を当てる必要があるためデコーダーを分離させたと論文内であるが,これは意外な盲点であったと感じた.(例えば人とサッカーボールを検出するためには当然それらの領域に焦点を当てる必要があるが相互作用を予測するためには人全体ではなく足や手などに注目することで蹴ったのか投げたのかを正しく予測できるということがあるのではないかと思う)