#412
summarized by : hisaka koji
Kaleido-BERT: Vision-Language Pre-Training on Fashion Domain

どんな論文か?

ファッション画像を言語に変換する、事前学習モデル  Kaleido-BERの紹介。
placeholder

新規性

我々は、画像とテキストの意味的関係に共同でより焦点を当てるためにアライメントガイド付きマスキングを設計します。 この目的のために、異なるスケールのパッチで自己教師付きVL事前学習のための5つの新しいタスク、すなわち、回転、ジグソー、カモフラージュ、グレーからカラー、およびブランクからカラーを実行します。

結果

テキスト検索(R@1: 4.03% absolute improvement)、画像検索(R@1: 7.13% abs imv.)、カテゴリ認識などの4つのダウンストリームタスクにおいて、大差で最先端の結果を達成しています。

その他(なぜ通ったか?等)

http://dpfan.net/Kaleido-BERT ファッションに焦点をあてて、ECに実用的に使用できそう