#70
summarized by : Ryuichi Nakahara
Video-Text Representation Learning via Differentiable Weak Temporal Alignment

どんな論文か?

ノイズが多く相関の弱いテキストデータを持つ動画データセットに対する、自己教師付き学習モデル
placeholder

新規性

大規模なテキストつき動画データセット(HoTo100M)があるが、データ量は非常に多いが、テキストが未キュレーションであるため、画像フレームとテキストが一致しておらず、全く関係のない説明をするテキストも存在する。 従来はDTWなどのアライメント技術が用いられていたが、微分可能なDTWを開発し従来よりも性能を高めた。

結果

様々な下流タスク:行動課題認識、テキスト⇒ビデオ検索、ビデオ⇒テキスト検索(YouCook2、MSRVTT)、ビデオ内の動作検索で良好な成績

その他(なぜ通ったか?等)

GitHubにソースコード公開。https://github.com/mlvlab/VT-TWINS 微分可能モデルというアプローチが良い