#80
summarized by : kota yoshida
Learning to Detect Human-Object Interactions With Knowledge

どんな論文か?

シーン認識のための画像内の人間と物体間の相対関係(human-object interactions: HOI)を識別する.HOIは人間と物体を対応付け主語,動詞,目的語を識別する.HOIのラベル空間は,ロングテール分布を示し,カテゴリーが少ない例も多く存在する.そのためにグラフベースのアプローチで視覚的関係における動詞およびオブジェクトカテゴリの間の根本的な規則性をモデル化することで検出する.
placeholder

新規性

(1)HOI検出におけるロングテール分布に対処するために,HOIにおける動詞および目的のカテゴリの依存性および他の視覚的関係をモデル化するための知識グラフを構築 (2)モデルが画像の意味構造を参照して関連動詞表現を学習できるように,マルチモーダル埋め込みを使用したHOI検出をする.

結果

HOI検出の代表的なベンチマークであるV-COCOとHICO-DETで評価し,既存で最大のパフォーマンスを発揮するiCANよりも絶対ゲインが;0.6増加した. GPNNも絶対ゲインがが 増加し,本手法の有用性が示された.

その他(なぜ通ったか?等)