End-to-End Referring Video Object Segmentation With Multimodal Transformers

#25

summarized by : Ryuichi Nakahara

Adam Botach; Evgenii Zheltonozhskii; Chaim Baskin

どんな論文か？

動画のセグメンテーション。文章で特定の動作を行っている対象を指定することで、その動作を行っている対象を全フレームにわたってセグメンテ―ションする。RVOS（referring video object segmentation task ）タスクの論文。

新規性

本手法はtransformerを用いてパイプラインを大幅に短縮した。事前にビデオ内のすべてのオブジェクトに対する予測を行ったのちに、言語問い合わせに対してマッチングを行うことで処理を簡略化している。動画全体で一貫したセグメンテーションを行うために、時間フレーム画像ごとに投票権をあたえる投票システムを開発した。

結果

JHMDB-Sentences データセットと、 Refer-YouTube-VOSデータセットにおいて従来法よりも高い性能を達成

その他（なぜ通ったか？等）

従来法はパイプラインが長くなる傾向にあった。パイプラインを大幅に短縮し、プログラムを公開したのが評価ポイント。 github にソースコードがあるだけでなく、google Collaboratory や Hugging faceにデモコードがあるため動作の確認が可能

このページで利用されている画像は論文から引用しています．