#48
summarized by : Shuhei M Yoshida
Spatially Consistent Representation Learning

どんな論文か?

教師なし表現学習である対照学習に関する論文。先行研究のほとんどが、データ拡張に対して不変な画像全体の特徴量を獲得することを目指しているが、物体検知など画像の局所的な特徴を捉えることができない。本研究では、データ拡張によって局所的な特徴が不変であるように特徴表現を学習し、物体検知などのタスクに有効な事前学習の方法を提案する。
placeholder

新規性

2つのviewからランダムにバウンディングボックスをRoI Alignで切り出し、その特徴量を元にBYOLと同様の学習を実行する、SCRLを提案。ポイントは、データ拡張前の画像上で整合するようにRoIを切り出すこと。これにより、異なるviewから切り出したRoIの意味的な整合性が保たれる。

結果

物体検知(PASCAL VOC, COCO)、インスタンス・セグメンテーション(COCO, Cityscapes)、キー・ポイント検出(COCO)で、ImageNetによる事前学習やBYOLを超える精度を得た。また、Ablationによって、2つのviewで切り出し位置を整合させることの重要性や、下流タスクの精度が飽和した領域でも優位性が残ることを示した。

その他(なぜ通ったか?等)

提案手法の優位性がロバストであることを、豊富な実験によって説得力を持って検証できている。 https://github.com/kakaobrain/scrl