#226
summarized by : Kensho Hara
Towards Long-Form Video Understanding

どんな論文か?

従来の動画認識に関する研究は数秒程度の動画に含まれるパターンの認識をしていたのに対して,より長期的な認識をするタスクの研究をしましょうという研究.そのための7つのタスクのデータセットを構築し,長期的な動画の理解をするためのTransformerベースの手法を提案.提案した7タスクで従来手法よりも高い性能を達成.
placeholder

新規性

7つのタスク(コンテンツの理解(relationship, speaking style, scene/place), ユーザの反応の推定(いいね数,視聴回数),メタデータ推定(director, genre, writer, year)に対する新規動画データセットの構築.各物体インスタンスを系列として扱うObject Transformerの提案.

結果

Object Transformerが提案した7つのタスクでSlowFast ResNet-101 + Non-localやVideoBERTよりも高い性能を達成(一部タスクでは負けてるけど).また,AVAでSOTAを超える性能を達成.

その他(なぜ通ったか?等)

Long-formなタスクとして,提供しているタスクが適切なのかどうかはちょっと疑問. Project Page: http://chaoyuan.org/lvu/