#129
summarized by : Jun Kimata
Temporal Alignment Networks for Long-Term Video

どんな論文か?

長時間のビデオと説明文を持つデータセットに対し,説明文のアライメントの時間的なずれの修正や関連の妥当性を判断するタスクを行った. 画像と文の特徴を同時に扱うモデルTemporal Alignment Networks(TAN)を提案し,Dual Encoderを補助的に用いて共同学習した. また,学習したモデルや修正した後のデータセットを用いることで,下流タスクの性能が向上した.
placeholder

新規性

説明文の位置を修正するというタスクと,そのためにビデオとテキストの特徴を同時に扱うモデルを採用した点. また,このタスクのために,データセットHTM-Alignを作成した点.

結果

先行研究と比べアライメントの大幅な改善. 学習したモデルを用いた下流タスクにおいて最先端の性能を確認. アライメントを修正したデータセットを用いたバックボーンの微調整で下流タスクの性能を向上.

その他(なぜ通ったか?等)