#566
summarized by : QIUYUE
Object-Aware Video-Language Pre-Training for Retrieval

どんな論文か?

Transformer構造の導入により、Vision-LanguageのRepresentation学習が劇的に成長してきた。しかし、既存の手法はFine-grainedなセマンティックアラインメントに関しての検討が不足している。Videoとテキストのアラインメントの事前学習のための、Object-centricな手法を提案し、物体検出とタグを利用することで学習のパフォーマンスを向上。
placeholder

新規性

Transformerの導入により画像と言語のアライメントに関しての研究が多くなってきたが、Videoと言語の関係性の学習の検討はまだ比較的に不足している。この研究ではVideoとlanguageのアラインメントを検討。また、新たにシンプルで有効的なObject-centric手法を提案し、有効的にFineーgrainedなセマンティックアライメントを実現した。

結果

提案の手法でVideoとlanguageのアラインメントの事前学習を行うことで、4つの既存ベンチマークデータセットMSRVTT, MSVD, DiDeMo, LSMDCにおいて、3つのDownstreamタスクで性能を向上した。さらに、アテンションの可視化の結果により、提案手法が有効的にビデオ中の物体領域に対して注目できる。

その他(なぜ通ったか?等)

論文のアイデアがシンプルでモデル構造もシンプルで綺麗。Attentionの結果があるから、解釈性があり、論文通りやすくなりそう。