UniT: Multimodal Multitask Learning With a Unified Transformer

#33

summarized by : Akihiro FUJII

Ronghang Hu, Amanpreet Singh

Vision, Text Vision&Languageなど複数のタスクを同時に学習し、推論できるTransformerを使ったモデルであるUniT(Unified Transformer)を提案。タスク毎の微調整は不要で、7つのタスクを同じパラメータで実施できる。

タスク毎の微調整学習が不要で、同じパラメータを使って様々なタスクを実行できる点。 Transformerを使って7つタスクを同時に学習する部分。画像の読み込みは、DETRと同じようにCNNで抽象化してからTransformerに入れる、テキストはBERTを使って読み込んでいる。

SotA性能とまではいかないまでも、微調整なしで最新鋭モデルに比肩する結果を出す。

arXivの初出の時の論文名は"Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer"（今は修正済み）

このページで利用されている画像は論文から引用しています．