#109
summarized by : Takaya Yamazoe
Multi-Task Learning of Hierarchical Vision-Language Representation

どんな論文か?

画像認識と自然言語処理からなるマルチタスクを学習できる手法を提案する。深層学習の歴史では、画像認識と自然言語処理はそれぞれ独立したタスクとして研究が進められてきた。この2つのタスクには何かしらの関係性があると考えられるが、独立したタスクとして扱ってはその関係性を理解することはできない。本研究では、この2つのタスクからなるマルチタスクの学習法を提案する。
placeholder

新規性

多様なデータセットからの多様なタスクを共有できるネットワークの提案。このネットワークの実現のために、Visual Question Answering(VQA)に用いられるDense Coattention層を採用し、マルチタスクの表現を計算するエンコーダと表現からタスクに適した予測をするデコーダを用いてネットワークを構築する。

結果

Image Caption Retrieval, VQA, Visual Grounding, Avoiding Contamination of Training Samples,のそれぞれのタスクについて、提案手法によるマルチタスクの学習モデルと従来のシングルタスクの学習モデルの精度を比較した結果、提案手法の優位性を示した。

その他(なぜ通ったか?等)