#104
summarized by : QIUYUE
M3L: Language-Based Video Editing via Multi-Modal Multi-Level Transformers

どんな論文か?

ビデオ編集のニーズが高いが、人工コストも高い。ここで、ビデオ編集の自動化のため、言語によりビデオを編集するタスクと手法を提案。提案タスクではビデオの中の部分的なコンテンツ(手の動作を修正など;)を言語指示により、ビデオから数フレームを編集する。また、Multi-modal Multi-LevelのTransformerを提案した。
placeholder

新規性

言語指示によりビデオを編集するタスクを提案。ビデオ全体を編集するタスクが困難なため、ここで、ビデオの中の数フレームの編集をターゲットする。また、このタスクのためのデータセットと手法も提案。

結果

提案のTransformerベースな手法が、提案のタスクで良い性能を実現した。また、提案のタスクが新しいVision-and-Languageのタスクの方向を開いた。

その他(なぜ通ったか?等)