Towards Long-Form Video Understanding

#226

summarized by : Kensho Hara

Chao-Yuan Wu, Philipp Krähenbühl

どんな論文か？

従来の動画認識に関する研究は数秒程度の動画に含まれるパターンの認識をしていたのに対して，より長期的な認識をするタスクの研究をしましょうという研究．そのための7つのタスクのデータセットを構築し，長期的な動画の理解をするためのTransformerベースの手法を提案．提案した7タスクで従来手法よりも高い性能を達成．

新規性

7つのタスク（コンテンツの理解（relationship, speaking style, scene/place), ユーザの反応の推定（いいね数，視聴回数），メタデータ推定（director, genre, writer, year)に対する新規動画データセットの構築．各物体インスタンスを系列として扱うObject Transformerの提案．

結果

Object Transformerが提案した7つのタスクでSlowFast ResNet-101 + Non-localやVideoBERTよりも高い性能を達成（一部タスクでは負けてるけど）．また，AVAでSOTAを超える性能を達成．

その他（なぜ通ったか？等）

Long-formなタスクとして，提供しているタスクが適切なのかどうかはちょっと疑問． Project Page: http://chaoyuan.org/lvu/

このページで利用されている画像は論文から引用しています．