- …
- …
#104
summarized by : QIUYUE
どんな論文か?
ビデオ編集のニーズが高いが、人工コストも高い。ここで、ビデオ編集の自動化のため、言語によりビデオを編集するタスクと手法を提案。提案タスクではビデオの中の部分的なコンテンツ(手の動作を修正など;)を言語指示により、ビデオから数フレームを編集する。また、Multi-modal Multi-LevelのTransformerを提案した。
新規性
言語指示によりビデオを編集するタスクを提案。ビデオ全体を編集するタスクが困難なため、ここで、ビデオの中の数フレームの編集をターゲットする。また、このタスクのためのデータセットと手法も提案。
結果
提案のTransformerベースな手法が、提案のタスクで良い性能を実現した。また、提案のタスクが新しいVision-and-Languageのタスクの方向を開いた。
その他(なぜ通ったか?等)
- …
- …