#402
summarized by : Shintaro Yamamoto
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

どんな論文か?

Vision-and-languageタスクにおける事前学習用データセットの提案.従来のConceptual Captions 3M(CC3M)はキャプショニングタスクのために設計されているため,キャプショニングに有効なデータのみを集めるようになっている.そこで,制約を緩和してより大規模にしたデータセットConceptual 12M(CC12M)を提案する.
placeholder

新規性

CC3M同様に,ウェブ上の画像テキストペアを収集することでCC12Mを作成する.CC3Mでは,キャプショニングの学習に使えるようprecisionが高くなるように画像,テキスト,画像テキストペアの3つの観点からフィルタリングを行っている.これに対してCC12Mは,学習に有効なデータを取りこぼさないようにrecallを重視し,フィルタリングの条件を緩和している.

結果

Vision-to-language及びvision-and-languageの2つの設定でモデルを事前学習して評価.CC3M単独よりもCC3MとCC12Mの両方を事前学習に用いる方が性能が高くなることを確認.

その他(なぜ通ったか?等)

データセット:https://github.com/google-research-datasets/conceptual-12m