#603
summarized by : Hiroki Ohashi
HOTR: End-to-End Human-Object Interaction Detection With Transformers

どんな論文か?

Human-Object Interaction Detectionの問題に、DETRベースのTransformerを適用し、SOTAを達成した。DETRに倣い、画像中の複数の<human, object, interaction>のtripletを集合として予測することで、重複する予測を自然と抑制することができ、従来法で必要であったヒューリスティックな後処理が不要となった。
placeholder

新規性

HOI detectionへTransformerを活用した初めての論文の一つ。Set predictionにより後処理が不要になると共に、encoder-decoder構造により、大域的な情報を組み込むことが可能になった。bounding boxを予測するヘッドと、それらのboxを紐づけてtripletの予測をするヘッドを分けて構成することで、冗長なbounding boxの生成を抑制している。

結果

標準的なベンチマークデータセットである、V-COCO及びHICO-DETにおいてSOTAを達成。上述のようなヘッドを分けた構成と、これらのヘッドのbase部分のencoderは別々に用意するのではなく、共通にすることが精度に大きく寄与していることが分かった。

その他(なぜ通ったか?等)

今年大流行のTransformerのCV応用の論文の一つ。HOI detectionは画像の一部を局所的に見るだけでなく、画像全体を大域的に見たうえで、人とモノといった複数オブジェクトの関連性を捉える必要があるため、Transformerのattention構造が良くマッチしたタスクと言えそう。HOI detectionではこの論文の発展形が今後もたくさん出てくるのではないか。