- …
- …
#335
summarized by : Yoshiki Nagasaki
どんな論文か?
動的シーングラフ生成において,2段階の訓練ステップを設けることで精度を向上した.具体的には,pre-trainingとして空間特徴を抽出するspatial encoderと過去フレームの時間特徴を捉えるProgressive Temporal Encoderを学習する.そして,fine-tuningとしてProgressive Temporal Encoderの特徴と現在フレームを結合し学習する.
新規性
従来の動的シーングラフ生成手法では,フレームを一括で入力してspatial encoderとtemporal encoderを同時に学習していた.それに対して,本手法では2段階の訓練ステップを設けることでshort-termとlong-termの特徴を効率的に抽出できる.
結果
従来手法(Action GenomeデータセットにおけるSoTA)と比較して高い再現率(Recall)を達成した.
その他(なぜ通ったか?等)
- …
- …