- …
- …
#226
summarized by : Kensho Hara
どんな論文か?
従来の動画認識に関する研究は数秒程度の動画に含まれるパターンの認識をしていたのに対して,より長期的な認識をするタスクの研究をしましょうという研究.そのための7つのタスクのデータセットを構築し,長期的な動画の理解をするためのTransformerベースの手法を提案.提案した7タスクで従来手法よりも高い性能を達成.
新規性
7つのタスク(コンテンツの理解(relationship, speaking style, scene/place), ユーザの反応の推定(いいね数,視聴回数),メタデータ推定(director, genre, writer, year)に対する新規動画データセットの構築.各物体インスタンスを系列として扱うObject Transformerの提案.
結果
Object Transformerが提案した7つのタスクでSlowFast ResNet-101 + Non-localやVideoBERTよりも高い性能を達成(一部タスクでは負けてるけど).また,AVAでSOTAを超える性能を達成.
その他(なぜ通ったか?等)
Long-formなタスクとして,提供しているタスクが適切なのかどうかはちょっと疑問.
Project Page: http://chaoyuan.org/lvu/
- …
- …