Spatial-Temporal Transformer for Dynamic Scene Graph Generation

summarized by : QIU YUE

Yuren Cong, Wentong Liao, Hanno Ackermann, Bodo Rosenhahn, Michael Ying Yang

どんな論文か？

Transformerを使った新たなVideo Scene Graph手法の提案。このタスクが2020年にAction Genomeデータセットにより初めて検討され、既存手法が1枚画像をベースとする物が多い；提案のSTTranがTransformer構造を導入し、1枚の画像内部の各物体・フレーム間の各物体間の関係を同時に考慮することにより、agデータセットに新たなSOTAを達成。

新規性

①Transformer構造を速い段階でVideo Scene Graphタスクに導入した；②Video Scene Graphの既存研究が少ない；③Without Graph ConstraintとWithの両方だけではなく、Semi-Graph Constraint評価指標を提案。

結果

①Video Scene GraphのデータセットAction GenomeにおいてSOTAな精度を達成した；②Transformer Encoder-Decoder構造から構成され、全体的構造がより理解しやすい。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．