Video-Text Representation Learning via Differentiable Weak Temporal Alignment

#70

summarized by : Ryuichi Nakahara

Dohwan Ko; Joonmyung Choi; Juyeon Ko; Shinyeong Noh; Kyoung-Woon On; Eun-Sol Kim; Hyunwoo J. Kim

どんな論文か？

ノイズが多く相関の弱いテキストデータを持つ動画データセットに対する、自己教師付き学習モデル

新規性

大規模なテキストつき動画データセット（HoTo100M）があるが、データ量は非常に多いが、テキストが未キュレーションであるため、画像フレームとテキストが一致しておらず、全く関係のない説明をするテキストも存在する。従来はDTWなどのアライメント技術が用いられていたが、微分可能なDTWを開発し従来よりも性能を高めた。

結果

様々な下流タスク：行動課題認識、テキスト⇒ビデオ検索、ビデオ⇒テキスト検索（YouCook2、MSRVTT）、ビデオ内の動作検索で良好な成績

その他（なぜ通ったか？等）

GitHubにソースコード公開。https://github.com/mlvlab/VT-TWINS 微分可能モデルというアプローチが良い

このページで利用されている画像は論文から引用しています．