#118
summarized by : Takehiro Matsuda
Masked-Attention Mask Transformer for Universal Image Segmentation

どんな論文か?

セグメンテーションタスクでSemantic, Instance, Panopticによらず使えるTrasformerによるユニバーサルなアーキテクチャを提案し、各種類のセグメンテーションでSOTAを達成した。
placeholder

新規性

FAIRから出されているDETR, MaskFormerの後継となり、Masked Attention, Feature Pyramidの導入により小物体や物体境界などの細部の認識が改善された。

結果

3種類のセグメンテーションタスクPanoptic : COCO Panoptic val2017, Instance: COCO val2017, Semantic: ADE20Kについて、同一のアーキテクチャを用いた学習でSOTAを達成した。

その他(なぜ通ったか?等)

Transformerが得意なGlobalな特徴や関係抽出に加え、小さな物体や微細な境界の認識を改善する方法を導入し、タスク種類によるネットワーク切り替えなどが必要ない認識精度が高いアーキテクチャを提案した。