SGTR: End-to-End Scene Graph Generation With Transformer

#336

summarized by : Yoshiki Nagasaki

Rongjie Li; Songyang Zhang; Xuming He

画像シーングラフ生成においてDETRを基盤としたEnd-to-Endモデルを構築した論文．

DETRを基盤とすることで画像シーングラフ生成タスクにおいて高精度なEnd-to-Endモデルを構築し， Bipartite Graph Assemblingを導入することによりtwo-stageモデルとone-stageモデルの利点を兼ね備えた手法を提案した．

従来の画像シーングラフ生成モデルと比較してSoTAを達成した．また，定性的に視覚化したattention mapからも，物体と関係性が正確に捉えられていることが分かった．

このページで利用されている画像は論文から引用しています．