#95
summarized by : 古澤嘉久
Instance Localization for Self-Supervised Detection Pretraining

どんな論文か?

これまでの自己教師あり学習は、画像分類の場合に大きな効果をもたらすが、これは画像全体の特徴を利用しているからであり、物体検出のような一部の領域の特徴を捉えることが必要なタスクのことが軽視されている。そこで物体検出に特化した自己教師あり学習を提案.
placeholder

新規性

3枚の画像を用いて、まず対象画像を異なる位置を2箇所ランダムクロップしてとってきて、残りの異なる二枚の画像に合成する。その後特徴量にエンコードして、合成した箇所をbbox情報をもとにROIAlignして特徴量をとってきて対比学習を行うInsLocを提案.またbboxのaugementationとして、アンカーボックスを用意してIOUが0.5を超えるようなものを正解として採用する方法を採用.

結果

分類タスクでは、 BYOLなどの既往研究と比較して低いが、PASCAL VOCやMSCOCOなどの物体検出、SegmentationタスクではSoTA .

その他(なぜ通ったか?等)

発想が自然であり(同じコンセプトの論文「Spatially Consistent Representation Learning」も同会議で掲載)読みやすかったことと目的に即した成果が得られたこと.