LEMMA: A Multi-view Dataset for LEarning Multi-agent Multi-task Activities

#37

summarized by : Shun.ishizaka

Baoxiong Jia, Yixin Chen, Siyuan Huang, Yixin Zhu, Song-Chun Zhu

どんな論文か？

multi-agent,multi-taskな，日常生活の行動分析向けのdataset．3視点で同期させて(ego-view+固定view2つ)撮影されている．行動を複数のatomic actionに分解して，1つの行動を複数の詳細行動に分解してアノテーションを付与．構築したdatasetに対してcompositionalityに注目したベンチマークの提案．

新規性

動画は324サンプル(フレーム数は4.6M)と小規模ながら，goal-orientedな認識タスクをこなせる「複数人」「複数視点」「複数タスク」のdatasetは初．personにbboxをつけ，RGB-Dで撮影．ベンチマークとしては，文章を名詞や動詞といった構成要素に分解し推定するものと行動を予測するものを提案．

結果

ego-viewでの推定結果と比較すると，3rd-person-viewではocclusionの影響で認識精度が大幅に低下していることが言える→ego-viewと3rd-person-viewを融合させた認識手法が今後来るのでは？と主張．

その他（なぜ通ったか？等）

project page: https://sites.google.com/view/lemma-activity

このページで利用されている画像は論文から引用しています．