#4
summarized by : Shintaro Yamamoto
VinVL: Revisiting Visual Representations in Vision-Language Models

どんな論文か?

Vision and Language (VL)のタスクでは,(1)物体検出器により画像中の物体を検出し,画像特徴量を抽出する,(2)画像と言語から得られた特徴量を結合する,という2段階のアプローチが取られることが多い.従来研究の多くは後者に注目しており,画像特徴の抽出については詳しく検討されていなかった.そこで,物体検出部の改善を行う.
placeholder

新規性

従来の物体検出で検出できるクラス数が少ない(図左側)のに対して,物体検出器の学習をCOCO,Open Images,Object365,Visual Genomeの4種類のデータセットで行うことで,画像からより多くの物体やアトリビュート情報(図右側)を獲得できるようにしている.物体検出器は,ResNeXt152 C4 architectureをベースとしている.

結果

提案した物体検出器をOSCARに導入して実験.VQA,GQA,NLVR2,COCO text-image retrieval,COCO image captioning,No Capsなど多くのVision and Languageタスクにおいて性能向上を確認.

その他(なぜ通ったか?等)

github: https://github.com/pzzhang/VinVL