#605
summarized by : 鈴木共生
Integrating Language Guidance Into Vision-Based Deep Metric Learning

どんな論文か?

従来の深層距離学習では画像間の特徴の距離を学習していた.しかし,この手法では クラス間の特徴は分類できるが,より高次な特徴を表現できない(例えば車画像からカーメーカーを分類している場合,それがスポーツカーかピックアップトラックかなど車種は考慮できない).提案法では,言語特徴を追加することでこの問題を解決した.
placeholder

新規性

提案法のネットワーク構造は画像のとおり2つの手法を提案している.1つ目(画像中段)は専門家によりクラスラベルを定義して,その類似度を距離学習のロスに加えるもの.2つ目(画像下段)はImageNetでクラス分類させた上位kクラスの類似度を計算するものであり,ラベル付けを必要とない.これら手法により画像間の高次な特徴学習を実現した.

結果

距離学習のベンチマーク(CUB200-2011, Cars196, Stanford Online Products)において評価.従来の画像ベースの類似度ロスに提案法の言語ロスを追加することでSOTAを達成した.

その他(なぜ通ったか?等)

距離ベースの学習では同一クラス間の距離を近づけ,他クラスを遠ざける学習をする.提案法では,さらに上位の他クラス間の類似度を言語特徴で表現可能であることを示したため.