Kaleido-BERT: Vision-Language Pre-Training on Fashion Domain

#412

summarized by : hisaka koji

Mingchen Zhuge, Dehong Gao, Deng-Ping Fan, Linbo Jin, Ben Chen, Haoming Zhou, Minghui Qiu, Ling Shao

どんな論文か？

ファッション画像を言語に変換する、事前学習モデル　 Kaleido-BERの紹介。

新規性

我々は、画像とテキストの意味的関係に共同でより焦点を当てるためにアライメントガイド付きマスキングを設計します。この目的のために、異なるスケールのパッチで自己教師付きVL事前学習のための5つの新しいタスク、すなわち、回転、ジグソー、カモフラージュ、グレーからカラー、およびブランクからカラーを実行します。

結果

テキスト検索（R@1: 4.03% absolute improvement）、画像検索（R@1: 7.13% abs imv.）、カテゴリ認識などの4つのダウンストリームタスクにおいて、大差で最先端の結果を達成しています。

その他（なぜ通ったか？等）

http://dpfan.net/Kaleido-BERT ファッションに焦点をあてて、ECに実用的に使用できそう

このページで利用されている画像は論文から引用しています．