#63
summarized by : Shun.ishizaka
We Have So Much In Common: Modeling Semantic Relational Set Abstractions in Videos

どんな論文か?

動画の抽象表現を学習する手法の提案.人間は異なるイベント間から共通点を見出すことができる(Relational Event Abstraction)点に注目,この抽象化をComputer visionでもやるのが本研究の目的.たとえば"Running" "Lifting" "Boxing"は3つともexerciseという纏まりで括れる,というような感じ.画像+言語情報を利用する.
placeholder

新規性

抽象表現をクエリから拾ってくるという問題設定が新しい.集合補完や仲間外れの動画の検出などに利用できる.また,検証のためにdatasetを構築(semantic relational algorithmにより構築,ようはKineticsとMulti-Moments in Timeの言語情報を使って4本1セットのまとまりをつくることにより自動で構築).

結果

KineticsおよびMulti-Moments in Timeを利用して検証.Classificationの精度はいずれも従来手法に比べて向上.

その他(なぜ通ったか?等)

project page → http://abstraction.csail.mit.edu/