VinVL: Revisiting Visual Representations in Vision-Language Models

summarized by : Shintaro Yamamoto

Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao

どんな論文か？

Vision and Language (VL)のタスクでは，(1)物体検出器により画像中の物体を検出し，画像特徴量を抽出する，(2)画像と言語から得られた特徴量を結合する，という2段階のアプローチが取られることが多い．従来研究の多くは後者に注目しており，画像特徴の抽出については詳しく検討されていなかった．そこで，物体検出部の改善を行う．

新規性

従来の物体検出で検出できるクラス数が少ない(図左側)のに対して，物体検出器の学習をCOCO，Open Images，Object365，Visual Genomeの4種類のデータセットで行うことで，画像からより多くの物体やアトリビュート情報(図右側)を獲得できるようにしている．物体検出器は，ResNeXt152 C4 architectureをベースとしている．

結果

提案した物体検出器をOSCARに導入して実験．VQA，GQA，NLVR2，COCO text-image retrieval，COCO image captioning，No Capsなど多くのVision and Languageタスクにおいて性能向上を確認．

その他（なぜ通ったか？等）

github: https://github.com/pzzhang/VinVL

このページで利用されている画像は論文から引用しています．