- …
- …
#489
summarized by : Katsuyuki Nakamura
どんな論文か?
動作主体と作用対象物の関係性に基づくアクション認識手法。フレーム内で物体検出を行い、物体の空間的関係を表すスパースなグラフ表現に落とす。その後、物体追跡を経てグラフの遷移を表現し、アクションを認識。
新規性
次の観点が新規:(1) 学習時の名詞と動詞の組み合わせが、テスト時に現れないCompositional action regocnitionタスク、(2)オブジェクトーサブジェクトのスパースな時空間グラフ表現。
結果
Compositional action regocnitionタスク において、I3Dなどの3次元畳み込みと比較して汎化性が向上。少量データでFinetuneを行うFew shotセッティングではI3Dに及ばないが、I3DをバックボーンとすることでSoTAとなることを確認した。
その他(なぜ通ったか?等)
アクション認識におけるCompositionalityの深い検討が評価されたと考えられる。Something-Something V2を拡張したSomething-Else datasetの公開も貢献。
https://github.com/joaanna/something_else
- …
- …