Generative Negative Text Replay for Continual Vision-Language Pretraining

#401

summarized by : Seitaro Shinagawa

Shipeng Yan; Lanqing Hong; Hang Xu; Jianhua Han; Tinne Tuytelaars; Zhenguo Li; Xuming He

どんな論文か？

Vision-Language Pretrainingのモデルを継続学習させるための学習の工夫の方法としてNegative Text Replayを提案。対照学習の効果を最大限得るために、画像に対して負例テキスト生成を行う。さらに知識蒸留を行うことで新旧モデル間のインスタンス単位の予測を整合させる工夫もある。

新規性

Vision and Languageモデルの学習において継続学習の問題設定に初めて取り組んだと論文は主張している。継続学習の方法として、pseudo rehearsal methodsの一種であるNegative Text Replayを提案。対照学習の効果を最大限得るために、画像に対して最も見分けづらい負例テキスト生成を行う点が技術的な新規性。

結果

ゼロショット画像分類と画像-テキスト検索タスクでモデルを評価。画像分類では既存モデルよりも平均4.60%の性能向上。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．