#413
summarized by : hisaka koji
Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation

どんな論文か?

言語入力によるビデオ・アクター・セグメンテーションは,対象フレームにおいて自然言語入力で記述されたアクションを行う俳優のピクセルレベルのマスクを予測することを目的としている.
placeholder

新規性

我々は空間-時間協調型のエンコーダ-デコーダフレームワークを提案する。このフレームワークには、質問されたアクションを認識するためのビデオクリップ上の3D時間エンコーダと、質問されたアクターを正確にセグメント化するためのターゲットフレーム上の2D空間エンコーダが含まれる。

結果

2つの有名なベンチマークにおいて、従来の手法よりも少ない計算オーバーヘッドで最先端の性能を達成しました

その他(なぜ通ったか?等)