- …
- …
#580
summarized by : 朝岡忠
新規性
画像質問応答(Visual Question Answering),画像キャプショニング,画像物体検出,画像分類などのタスクを学習し実行するための,エンドツーエンドで学習可能なタスク非依存型の視覚・言語アーキテクチャGPV-1を提案.入力は,画像とテキスト.出力は,バウンディングボックス,信頼度,テキスト.
結果
GPV-1を,ViLBERT(画像質問応答),VLP(画像キャプショニング),Faster-RCNN(画像物体検出),Resnet-50(画像分類)と比較.GPV-1はこれらの複数のタスクで有効であり,汎用性を証明.
その他(なぜ通ったか?等)
GPV-1は,画像生成ヘッドを持たないため,画像セグメンテーションなどは実行できない.また,動画や点群などの入力も扱えない.
- …
- …