#616
summarized by : Ryosuke Oshima
Scaling Up Vision-Language Pre-Training for Image Captioning

どんな論文か?

昨今のNLP分野等で盛んに検証されている、スケーリング則(データセットの大きさやモデルのパラメタを巨大化すればするほどモデルの性能は飛躍的に上昇する法則)について。Image Captioningの分野でも実験し、検証した。
placeholder

新規性

大規模事前学を行うために、テキストと画像の大規模(2億ペア)データセット(ALT200M1)を提案。また、そのデータセットを用いて、大規模モデル(LEMON)でスケーリング則を検証した点。(1300万から約6.8億パラメタまで)

結果

モデルのパラメタ数が小さいと、データセットを大きくしても精度は頭打ちになるが、モデルのパラメタを大きくするほどデータセットを大きくする効果が出てくる。 また、COCO capiton, nocaps, Conceptional Captionsの3つのデータセットにおいてSOTA。ゼロショット性能も確認。

その他(なぜ通ったか?等)

https://github.com/xiaoweihu/ALT200M データセットはこちらで公開されるらしいが、2022/7/29現在、閲覧することはできない。