#316
summarized by : Tomoya Nitta
End-to-End Generative Pretraining for Multimodal Video Captioning

どんな論文か?

video captioningタスクにおける事前学習の手法としてMV-GPTを提案。同じ動画の2つのクリップの発話を音声認識によって生成し、2クリップの発話をマスクをして双方向に予測を行うことでエンコーダとデコーダの事前学習を同時に行う。
placeholder

新規性

従来手法のvideo captioningでの事前学習は大規模な動画認識用データセットで動画エンコーダのみの事前学習を行っていたが、提案手法では発話の生成までをend-to-endで学習させることでエンコーダとデコーダの2つを同時に学習することができる。

結果

YouCook2、ViTT、MSR-VTT、ActivityNet-CaptionsにおいてSOTAを上回る結果が得られた。

その他(なぜ通ったか?等)

論文では提案手法は事前学習として大規模データセットを用いてファインチューニングを行っていたが、自己教師あり学習などの応用に使えそうと思った。