Delving Deep Into Many-to-Many Attention for Few-Shot Video Object Segmentation

#752

summarized by : 金城忍

Haoxin Chen, Hanjie Wu, Nanxuan Zhao, Sucheng Ren, Shengfeng He

どんな論文か？

共通のエンコーダでマスクラベル有り画像と映像フレームから特徴量を抽出し、画像の特徴量をマスクで重み付けした後、映像の特徴量をクエリーとして画像の特徴量に対して、チャンネル毎でアテンションを取る一方で、映像の特徴量に対してもアテンションスコアを取り、それらの内積と映像の特徴量を使用して、デコーダでフレームに対するマスクを推論する手法の提案

新規性

フルランクアテンションを分解しサイズを小さくすることで映像の領域分割に対してFew-shot学習をするという点で新規

結果

ImageNetで事前学習したResNet-50を使用して、YouTube-VISの評価で提案手法は既存手法より、良い結果を達成 (但し輪郭精度+Fold-1値を除く) する一方で、視覚的評価でも対象の物体に対してより正確なマスクが生成されていることを確認した

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．