End-to-End Video Instance Segmentation With Transformers

#727

summarized by : 金城忍

Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, Huaxia Xia

どんな論文か？

CNNでフレーム毎の特徴量を抽出する一方で、インスタンスセグ領域分割のために位置符号化し、チャンネル数削減後、Transformerエンコーダで全てのフレームのピクセル単位での特徴量間の関連度を抽出し、Transformerデコーダで、任意の数のインスタンス毎の特徴量を各フレームから抽出した後、フレーム間のインスタンスの系列情報を予測する一方で、インスタンスに対するマスクを予測する提案

新規性

Transformerを一連の連続する画像内に存在する物体に対する領域分割に適応するという点で新規

結果

特徴量抽出器にResNet-{50, 101}を使用し、YouTube-VISでの評価で、ResNet-101を抽出器として使用した場合、AP_{50, 10, 1}で既存手法より良い結果となる一方で、視覚的な評価では、連続したフレームに対してオーバラップ、相対位置の変化、同一カテゴリ及び多様な姿勢に対して領域分割が適切に実施されていることを確認した

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．