- …
- …
#9
summarized by : Kota Yoshida
どんな論文か?
詳細画像認識のためのネットワークCrossX Learningを提案,頑健でマルチスケールな特徴表現を学習するために異なる画像間やレイヤー間の関係を活用するネットワークになっている.5つの詳細画像認識のベンチマークデータセットでの評価実験により,いずれも精度向上を示し,アプローチの有効性を実証した.
新規性
入力画像の複数の部分のAttentionを獲得するOSME blockをベースにし,異なる画像間やレイヤー間の特徴をガイドするためにa cross-category cross-semantic regularizer (C3S) を導入.KL発散を最小化することにより、中間層の特徴の予測分布を出力層の予測分布に一致させるa cross-layer regularizer (CL)を導入.
結果
NABirdsでは86.4 %,CUB-Birdsでは87.7 %,Stanford Carsでは94.6 %,Stanford Dogsでは88.9 %,FGVC-Aircraftでは92.7 %を示し,いずれも精度向上を示し,アプローチの有効性を実証した.
その他(なぜ通ったか?等)
github: https://github.com/cswluo/CrossX
- …
- …