- …
- …
#70
summarized by : Ryuichi Nakahara
新規性
大規模なテキストつき動画データセット(HoTo100M)があるが、データ量は非常に多いが、テキストが未キュレーションであるため、画像フレームとテキストが一致しておらず、全く関係のない説明をするテキストも存在する。
従来はDTWなどのアライメント技術が用いられていたが、微分可能なDTWを開発し従来よりも性能を高めた。
結果
様々な下流タスク:行動課題認識、テキスト⇒ビデオ検索、ビデオ⇒テキスト検索(YouCook2、MSRVTT)、ビデオ内の動作検索で良好な成績
その他(なぜ通ったか?等)
GitHubにソースコード公開。https://github.com/mlvlab/VT-TWINS
微分可能モデルというアプローチが良い
- …
- …