Dynamic Scene Graph Generation via Anticipatory Pre-Training

#335

summarized by : Yoshiki Nagasaki

Yiming Li; Xiaoshan Yang; Changsheng Xu

どんな論文か？

動的シーングラフ生成において，2段階の訓練ステップを設けることで精度を向上した．具体的には，pre-trainingとして空間特徴を抽出するspatial encoderと過去フレームの時間特徴を捉えるProgressive Temporal Encoderを学習する．そして，fine-tuningとしてProgressive Temporal Encoderの特徴と現在フレームを結合し学習する．

新規性

従来の動的シーングラフ生成手法では，フレームを一括で入力してspatial encoderとtemporal encoderを同時に学習していた．それに対して，本手法では2段階の訓練ステップを設けることでshort-termとlong-termの特徴を効率的に抽出できる．

結果

従来手法(Action GenomeデータセットにおけるSoTA)と比較して高い再現率(Recall)を達成した．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．