#887
summarized by : Yuta Nakamura
Graphical Contrastive Losses for Scene Graph Parsing

どんな論文か?

画像から2つの事物とその関係をタグ付けするタスク(Scene Graph Parsing)の障害となっていた問題を,新たなloss functionおよびネットワーク構造を導入することで解決しようとした論文。従来の手法にはEntity Instance Confucion, Proximal Relationship Ambiguityという2種の誤りを犯しやすい弱点があった。
placeholder

新規性

従来は2オブジェクトの同定とその関係のタグ付けを別々の工程として行っていたが,損失関数にEntity Class Aware Loss, Predicate Class Aware Lossという関数を組み込むことで両者を同時に考慮できるようにしている。さらに,新たなネットワーク構造(RelDN)を導入して既存手法からの改善を試みている。

結果

3データセット(Open Images, Visual Genome, Visual Relationship Detection)で実験し,その全てで既存手法より性能が改善。また,従来手法の2種の誤りも軽減できた。指標にはRecall, mAP(対bounding box), mAP(対enclosing relationship box)などを用いている。

その他(なぜ通ったか?等)