#265
summarized by : QIUYUE
Align and Prompt: Video-and-Language Pre-Training With Entity Prompts

どんな論文か?

既存のVideo Language Pre-trainingモデルが詳細的にビデオ内容とテキストのアラインメントに対しての検討が不足している。また、物体検出器に頼る手法が多いため、計算コストが高い。物体検出器を用いない、スパースなビデオフレームとテキストをアライメントする手法を提案。提案手法ではPromptを導入し、ContrastiveVideo-textロスでビデオとテキストの関係を学習する。
placeholder

新規性

新たなVideoとTextの関係性学習の手法を提案し、複数タスクでSOTAを達成。具体的に、自然言語処理で成功を収めたPromptを導入し、Self-supervisedでビデオとテキストのFineーgrainedな対応関係を学習できるようにした。また、VideoとTextをアラインメントするConstrastive Lossを提案し、計算コストが高いクロスモーダルAttention計算を省けた。

結果

webly-source video-textペアから構成されるデータせとで提案手法を事前学習した結果、Text-video retrievalタスクとVideoQAタスクでSOTAを達成した。

その他(なぜ通ったか?等)

ビデオから、Sparseでフレームをサンプリングしているため、どれくらいビデオ特徴や動作特徴を学習できるかは知りたい。