#630
summarized by : Sora Takashima (高島 空良)
LiT: Zero-Shot Transfer With Locked-Image Text Tuning

どんな論文か?

CLIPやALIGNなどのマルチモーダルな対象学習手法は、テキストと画像のペアのマッチングを学習することによって、様々な分類タスクをゼロショットで解くことを可能にしたが、その精度は、既存の事前学習済みモデルをFine-Tuningさせたものに遠く及んでいない。本論文では、対象学習手法のタスク柔軟性を維持しつつゼロショットの精度を向上させることを目的としている。
placeholder

新規性

画像エンコーダーのパラメータを固定して学習させる新しい対象学習手法LiTを提案。 LiTは、 1. 画像エンコーダー(ViT-Gなど)をJFT-3Bなどの大規模画像データセットで事前学習 2. 画像エンコーダーのパラメータを固定し、テキストエンコーダーをテキスト-画像ペアのデータセットを用いた対象学習によって学習 といった段取りでエンコーダーの学習を行う、シンプルな対象学習の改良手法。

結果

様々な画像分類タスクにおいて、既存の対象学習手法と比較してゼロショット分類精度の大幅な向上。ImageNetのゼロショット分類top-1精度は、既存の対象学習手法が76.4%に対して、LiTが84.5%となった。Fint-Tuningを用いてImageNetに特化させたSoTAが91.0%程度であることを考慮すると、ゼロショットとFint-Tuning間の精度ギャップを半減させる結果となっている。

その他(なぜ通ったか?等)

事前学習済み画像エンコーダーを用いてテキストエンコーダーのみを対象学習によって学習させるシンプルな手法で、ゼロショット学習精度を格段に向上させたインパクトは大きく、さらにメモリ効率や計算効率も従来手法より高まっており、対照学習におけるパラダイムであると思った。ただ、事前学習に使用するデータセットが非公開のJFT-3Bや10Mの画像-テキストペアであるなど透明性における懸念点は残る。