k-Means Mask Transformer

#358

summarized by : Ryo Nakamura

Qihang Yu; Huiyu Wang; Siyuan Qiao; Maxwell Collins; Yukun Zhu; Hartwig Adam; Alan Yuille; Liang-Chieh Chen

どんな論文か？

既存のViTの多くは，言語と画像の決定的な違い，特に空間的に平坦化された画素特徴のシーケンス長が非常に長いことを無視して，単に言語処理からアイデアを借用している．このため，画素の特徴量と物体に関する問い合わせの間の相互注視の学習が阻害される．この論文では，ピクセルとオブジェクトクエリの関係を再考し，クロスアテンション学習をクラスタリング処理として再定式化することを提案した．

新規性

Vision Transformerのオブジェクトクエリのクロスアテンション学習において豊満な画素の豊から最も区別しやすい特徴を強調するように学習する必要があり，その結果，学習の収束が遅くなり、性能が劣る問題をk-meanのシンプルな拡張で大きな改善をおこなった点．

結果

結果，kMaX-DeepLabはCOCO val setにおいてPQ 58.0%，Cityscapes val setにおいてPQ 68.4%，AP 44.0%，mIoU 83.5%の性能をテスト時間増強や外部データセットなしで達成し，SoTAを実現した．

その他（なぜ通ったか？等）

オブジェクトクエリを学習可能な埋め込みベクトルを持つクラスタ中心と見なすことで、クロスアテンションスキームが従来のk-meansクラスタリングと強い類似性を持っていることを発見し，その特性を活かしたモデルを提案し，シンプルかつ高い精度向上を行ったから． GitHub: https://github.com/google-research/deeplab2

このページで利用されている画像は論文から引用しています．