#176
summarized by : 志田遥飛
Semantic-Aware Auto-Encoders for Self-Supervised Representation Learning

どんな論文か?

クロスビュー学習を用いることができる知覚学習から着想を得て,クロスビュー画像再構成によって意味を考慮した表現を学習できる新しいAuto Encoderを提案. Auto encoderの学習能力を高め,最適化を簡易にするために幾何学的変換知識を用いてAEの隠しコードを整列させるセマンティックアライナーを提案.
placeholder

新規性

それまで生成モデルに自己教師付き学習を導入すると,分類モデルに比べてに効率が悪かった.「効率の悪さ」という課題を,セマンティックアライナーとクロスビュー画像再構成によって表現を学習できるAuto encoderを提案し解決している点.

結果

ViTをアーキテクチャとして用いて以下の下流タスクを行い,有効性を証明した.ImageNet [48] (1.28M images)での線形評価、SYSU-30k [59] (30M images)での人物再ID、COCO 2017 [40] (123K images, 900K instances) の物体分割とインスタンス検出評価) 添付した画像は,Image Netでの線形評価結果

その他(なぜ通ったか?等)

実装コードへのリンク https://github. com/wanggrun/Semantic-Aware-AE.