Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased Scene Graph Generation

#519

summarized by : Yuta Hamada

Xingning Dong; Tian Gan; Xuemeng Song; Jianlong Wu; Yuan Cheng; Liqiang Nie

どんな論文か？

既存のSGG手法は、①偏ったデータセットで全ての述語を予測するのは困難 ②画像と言語の融合が不十分と主張。①を解決するため述語の異なる部分集合を区別することに長けた分類器を複数配置し、これらが協調して予測するGroup Collaborative Learning（GCL）、②を解決するためSAとCAを組み合わせて階層化したStacked Hybrid-Attention（SHA）を提案。

新規性

GCL：long-tailなデータセットの述語予測において、既存手法で用いる単一の分類器では限界があると主張。データセットをいくつかバランスのとれたグループに分割してそれぞれに分類器を導入し、それらの分類器が協調して述語予測を行うための戦略を提案した。GCLは様々なSGG手法に適用可能。 SHA：画像と言語の特徴を単純に合計または連結するのではなく、Hybrid-Attentionを利用した。

結果

Recallは用いず、Unbiased metricであるmean-Recall（mR）のみで評価した。 SGGのベースラインにGCLを導入した場合、他のdebiasing手法を導入した場合よりも高いスコアが得られた。ベースラインを基準に見るとmRがほぼ２倍となった。さらにベースラインではなくSHAを用いたSHA+GCLは、SGDetをはじめとした全タスクにおいてSoTAを達成した。

その他（なぜ通ったか？等）

GCLが様々なSGG手法に適用できる点が大きいと感じた。Limitations and Future Workの章には、提案したGCLにはまだ探求の余地があると述べられている。 githubのリンク：https://github.com/dongxingning/SHA-GCL-for-SGG

このページで利用されている画像は論文から引用しています．