Multi-Task Learning of Hierarchical Vision-Language Representation

#109

summarized by : Takaya Yamazoe

Duy-Kien Nguyen, Takayuki Okatani

どんな論文か？

画像認識と自然言語処理からなるマルチタスクを学習できる手法を提案する。深層学習の歴史では、画像認識と自然言語処理はそれぞれ独立したタスクとして研究が進められてきた。この２つのタスクには何かしらの関係性があると考えられるが、独立したタスクとして扱ってはその関係性を理解することはできない。本研究では、この２つのタスクからなるマルチタスクの学習法を提案する。

新規性

多様なデータセットからの多様なタスクを共有できるネットワークの提案。このネットワークの実現のために、Visual Question Answering(VQA)に用いられるDense Coattention層を採用し、マルチタスクの表現を計算するエンコーダと表現からタスクに適した予測をするデコーダを用いてネットワークを構築する。

結果

Image Caption Retrieval, VQA, Visual Grounding, Avoiding Contamination of Training Samples,のそれぞれのタスクについて、提案手法によるマルチタスクの学習モデルと従来のシングルタスクの学習モデルの精度を比較した結果、提案手法の優位性を示した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．