#335
summarized by : Yoshiki Nagasaki
Dynamic Scene Graph Generation via Anticipatory Pre-Training

どんな論文か?

動的シーングラフ生成において,2段階の訓練ステップを設けることで精度を向上した.具体的には,pre-trainingとして空間特徴を抽出するspatial encoderと過去フレームの時間特徴を捉えるProgressive Temporal Encoderを学習する.そして,fine-tuningとしてProgressive Temporal Encoderの特徴と現在フレームを結合し学習する.
placeholder

新規性

従来の動的シーングラフ生成手法では,フレームを一括で入力してspatial encoderとtemporal encoderを同時に学習していた.それに対して,本手法では2段階の訓練ステップを設けることでshort-termとlong-termの特徴を効率的に抽出できる.

結果

従来手法(Action GenomeデータセットにおけるSoTA)と比較して高い再現率(Recall)を達成した.

その他(なぜ通ったか?等)