Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation

#413

summarized by : hisaka koji

Tianrui Hui, Shaofei Huang, Si Liu, Zihan Ding, Guanbin Li, Wenguan Wang, Jizhong Han, Fei Wang

言語入力によるビデオ・アクター・セグメンテーションは，対象フレームにおいて自然言語入力で記述されたアクションを行う俳優のピクセルレベルのマスクを予測することを目的としている．

我々は空間-時間協調型のエンコーダ-デコーダフレームワークを提案する。このフレームワークには、質問されたアクションを認識するためのビデオクリップ上の3D時間エンコーダと、質問されたアクターを正確にセグメント化するためのターゲットフレーム上の2D空間エンコーダが含まれる。

2つの有名なベンチマークにおいて、従来の手法よりも少ない計算オーバーヘッドで最先端の性能を達成しました

このページで利用されている画像は論文から引用しています．