#1
summarized by : QIU YUE
Spatial-Temporal Transformer for Dynamic Scene Graph Generation

どんな論文か?

Transformerを使った新たなVideo Scene Graph手法の提案。このタスクが2020年にAction Genomeデータセットにより初めて検討され、既存手法が1枚画像をベースとする物が多い;提案のSTTranがTransformer構造を導入し、1枚の画像内部の各物体・フレーム間の各物体間の関係を同時に考慮することにより、agデータセットに新たなSOTAを達成。
placeholder

新規性

①Transformer構造を速い段階でVideo Scene Graphタスクに導入した;②Video Scene Graphの既存研究が少ない;③Without Graph ConstraintとWithの両方だけではなく、Semi-Graph Constraint評価指標を提案。

結果

①Video Scene GraphのデータセットAction GenomeにおいてSOTAな精度を達成した;②Transformer Encoder-Decoder構造から構成され、全体的構造がより理解しやすい。

その他(なぜ通ったか?等)