#137
summarized by : Kensho Hara
Social Fabric: Tubelet Compositions for Video Relation Detection

どんな論文か?

動画中の物体間の関係性を推定するタスク (Video Relation Detection) を解く手法を提案.学習データから,動画中に存在するインタラクションのプリミティブを学習し,動画中に含まれる物体のTubeletのペアをインタラクションプリミティブの組み合わせとして表現してVideo Relation Detectionを行う.
placeholder

新規性

手法の最初から物体のTubeletのペアを入力として動画中の関係性を識別・検出するフレームワークの提案(従来手法は個々の物体やTubeletを単一の要素として扱い,それらの関係性をモデル化するようなフレームワーク).各ペアをインタラクションのプリミティブから構成される要素としてEncodingするように学習するSocial Fabricを提案.

結果

ImageNet-VidVRDとVidORという二つのデータセットにおいて既存手法を上回る性能を達成.

その他(なぜ通ったか?等)

GitHub(2021/11/5現在では結果と評価用コードのみ): https://github.com/shanshuo/Social-Fabric