#9
summarized by : Kota Yoshida
Cross-X Learning for Fine-Grained Visual Categorization

どんな論文か?

詳細画像認識のためのネットワークCrossX Learningを提案,頑健でマルチスケールな特徴表現を学習するために異なる画像間やレイヤー間の関係を活用するネットワークになっている.5つの詳細画像認識のベンチマークデータセットでの評価実験により,いずれも精度向上を示し,アプローチの有効性を実証した.
placeholder

新規性

入力画像の複数の部分のAttentionを獲得するOSME blockをベースにし,異なる画像間やレイヤー間の特徴をガイドするためにa cross-category cross-semantic regularizer (C3S) を導入.KL発散を最小化することにより、中間層の特徴の予測分布を出力層の予測分布に一致させるa cross-layer regularizer (CL)を導入.

結果

NABirdsでは86.4 %,CUB-Birdsでは87.7 %,Stanford Carsでは94.6 %,Stanford Dogsでは88.9 %,FGVC-Aircraftでは92.7 %を示し,いずれも精度向上を示し,アプローチの有効性を実証した.

その他(なぜ通ったか?等)

github: https://github.com/cswluo/CrossX