- …
- …
#4
summarized by : Shintaro Yamamoto
どんな論文か?
Vision and Language (VL)のタスクでは,(1)物体検出器により画像中の物体を検出し,画像特徴量を抽出する,(2)画像と言語から得られた特徴量を結合する,という2段階のアプローチが取られることが多い.従来研究の多くは後者に注目しており,画像特徴の抽出については詳しく検討されていなかった.そこで,物体検出部の改善を行う.
新規性
従来の物体検出で検出できるクラス数が少ない(図左側)のに対して,物体検出器の学習をCOCO,Open Images,Object365,Visual Genomeの4種類のデータセットで行うことで,画像からより多くの物体やアトリビュート情報(図右側)を獲得できるようにしている.物体検出器は,ResNeXt152 C4 architectureをベースとしている.
結果
提案した物体検出器をOSCARに導入して実験.VQA,GQA,NLVR2,COCO text-image retrieval,COCO image captioning,No Capsなど多くのVision and Languageタスクにおいて性能向上を確認.
その他(なぜ通ったか?等)
github: https://github.com/pzzhang/VinVL
- …
- …