Something-Else: Compositional Action Recognition With Spatial-Temporal Interaction Networks

#489

summarized by : Katsuyuki Nakamura

Joanna Materzynska, Tete Xiao, Roei Herzig, Huijuan Xu, Xiaolong Wang, Trevor Darrell

動作主体と作用対象物の関係性に基づくアクション認識手法。フレーム内で物体検出を行い、物体の空間的関係を表すスパースなグラフ表現に落とす。その後、物体追跡を経てグラフの遷移を表現し、アクションを認識。

次の観点が新規：(1) 学習時の名詞と動詞の組み合わせが、テスト時に現れないCompositional action regocnitionタスク、(2)オブジェクトーサブジェクトのスパースな時空間グラフ表現。

Compositional action regocnitionタスクにおいて、I3Dなどの3次元畳み込みと比較して汎化性が向上。少量データでFinetuneを行うFew shotセッティングではI3Dに及ばないが、I3DをバックボーンとすることでSoTAとなることを確認した。

アクション認識におけるCompositionalityの深い検討が評価されたと考えられる。Something-Something V2を拡張したSomething-Else datasetの公開も貢献。 https://github.com/joaanna/something_else

このページで利用されている画像は論文から引用しています．