#489
summarized by : Katsuyuki Nakamura
Something-Else: Compositional Action Recognition With Spatial-Temporal Interaction Networks

どんな論文か?

動作主体と作用対象物の関係性に基づくアクション認識手法。フレーム内で物体検出を行い、物体の空間的関係を表すスパースなグラフ表現に落とす。その後、物体追跡を経てグラフの遷移を表現し、アクションを認識。
placeholder

新規性

次の観点が新規:(1) 学習時の名詞と動詞の組み合わせが、テスト時に現れないCompositional action regocnitionタスク、(2)オブジェクトーサブジェクトのスパースな時空間グラフ表現。

結果

Compositional action regocnitionタスク において、I3Dなどの3次元畳み込みと比較して汎化性が向上。少量データでFinetuneを行うFew shotセッティングではI3Dに及ばないが、I3DをバックボーンとすることでSoTAとなることを確認した。

その他(なぜ通ったか?等)

アクション認識におけるCompositionalityの深い検討が評価されたと考えられる。Something-Something V2を拡張したSomething-Else datasetの公開も貢献。 https://github.com/joaanna/something_else