#172
summarized by : Ryota Suzuki
Composing Text and Image for Image Retrieval - an Empirical Odyssey

どんな論文か?

画像検索で,入力を「画像」+「それを修正するような文言」(例:エッフェル塔画像+「No people」)とするタスクを提案.実現のために画像と文字情報を結合するText Image Residual Gatingを提案.ゲートと残差の項を学習可能な重みで結合する.Deep Metric Learningも添えて.
placeholder

新規性

提案タスクがとにかく新しいし,画像検索としてはだれでもやりたくなるクエリ.

結果

Fashion200kで精度15.2 (+0.4),CLEVRによる3D->3Dで検索パフォーマンス73.7 (+7.9),2D->3Dで46.6 (+2.9).(2位手法との比較)

その他(なぜ通ったか?等)

Google AI lab. この論文でも採用されているCLEVRデータセットは強い…!