Scaling Up Vision-Language Pre-Training for Image Captioning

#616

summarized by : Ryosuke Oshima

Xiaowei Hu; Zhe Gan; Jianfeng Wang; Zhengyuan Yang; Zicheng Liu; Yumao Lu; Lijuan Wang

どんな論文か？

昨今のNLP分野等で盛んに検証されている、スケーリング則（データセットの大きさやモデルのパラメタを巨大化すればするほどモデルの性能は飛躍的に上昇する法則）について。Image Captioningの分野でも実験し、検証した。

新規性

大規模事前学を行うために、テキストと画像の大規模（2億ペア）データセット（ALT200M1）を提案。また、そのデータセットを用いて、大規模モデル（LEMON）でスケーリング則を検証した点。（1300万から約6.8億パラメタまで）

結果

モデルのパラメタ数が小さいと、データセットを大きくしても精度は頭打ちになるが、モデルのパラメタを大きくするほどデータセットを大きくする効果が出てくる。また、COCO capiton, nocaps, Conceptional Captionsの３つのデータセットにおいてSOTA。ゼロショット性能も確認。

その他（なぜ通ったか？等）

https://github.com/xiaoweihu/ALT200M　データセットはこちらで公開されるらしいが、2022/7/29現在、閲覧することはできない。

このページで利用されている画像は論文から引用しています．