We Have So Much In Common: Modeling Semantic Relational Set Abstractions in Videos

#63

summarized by : Shun.ishizaka

Alex Andonian, Camilo Fosco, Mathew Monfort, Allen Lee, Rogerio Feris, Carl Vondrick, Aude Oliva

どんな論文か？

動画の抽象表現を学習する手法の提案．人間は異なるイベント間から共通点を見出すことができる(Relational Event Abstraction)点に注目，この抽象化をComputer visionでもやるのが本研究の目的．たとえば"Running" "Lifting" "Boxing"は3つともexerciseという纏まりで括れる，というような感じ．画像+言語情報を利用する．

新規性

抽象表現をクエリから拾ってくるという問題設定が新しい．集合補完や仲間外れの動画の検出などに利用できる．また，検証のためにdatasetを構築(semantic relational algorithmにより構築，ようはKineticsとMulti-Moments in Timeの言語情報を使って4本1セットのまとまりをつくることにより自動で構築)．

結果

KineticsおよびMulti-Moments in Timeを利用して検証．Classificationの精度はいずれも従来手法に比べて向上．

その他（なぜ通ったか？等）

project page → http://abstraction.csail.mit.edu/

このページで利用されている画像は論文から引用しています．