Towards General Purpose Vision Systems: An End-to-End Task-Agnostic Vision-Language Architecture

#580

summarized by : 朝岡忠

Tanmay Gupta; Amita Kamath; Aniruddha Kembhavi; Derek Hoiem

どんな論文か？

アーキテクチャや学習プロセスを変更することなく，様々なタスクを学習し実行できる汎用ビジョンシステムの実現が目的．

新規性

画像質問応答（Visual Question Answering），画像キャプショニング，画像物体検出，画像分類などのタスクを学習し実行するための，エンドツーエンドで学習可能なタスク非依存型の視覚・言語アーキテクチャGPV-1を提案．入力は，画像とテキスト．出力は，バウンディングボックス，信頼度，テキスト．

結果

GPV-1を，ViLBERT（画像質問応答），VLP（画像キャプショニング），Faster-RCNN（画像物体検出），Resnet-50（画像分類）と比較．GPV-1はこれらの複数のタスクで有効であり，汎用性を証明．

その他（なぜ通ったか？等）

GPV-1は，画像生成ヘッドを持たないため，画像セグメンテーションなどは実行できない．また，動画や点群などの入力も扱えない．

このページで利用されている画像は論文から引用しています．