#33
summarized by : Akihiro FUJII
UniT: Multimodal Multitask Learning With a Unified Transformer

どんな論文か?

Vision, Text Vision&Languageなど複数のタスクを同時に学習し、推論できるTransformerを使ったモデルであるUniT(Unified Transformer)を提案。タスク毎の微調整は不要で、7つのタスクを同じパラメータで実施できる。

新規性

タスク毎の微調整学習が不要で、同じパラメータを使って様々なタスクを実行できる点。 Transformerを使って7つタスクを同時に学習する部分。 画像の読み込みは、DETRと同じようにCNNで抽象化してからTransformerに入れる、テキストはBERTを使って読み込んでいる。

結果

SotA性能とまではいかないまでも、微調整なしで最新鋭モデルに比肩する結果を出す。

その他(なぜ通ったか?等)

arXivの初出の時の論文名は"Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer"(今は修正済み)