- …
- …
#33
summarized by : Akihiro FUJII
どんな論文か?
Vision, Text Vision&Languageなど複数のタスクを同時に学習し、推論できるTransformerを使ったモデルであるUniT(Unified Transformer)を提案。タスク毎の微調整は不要で、7つのタスクを同じパラメータで実施できる。
新規性
タスク毎の微調整学習が不要で、同じパラメータを使って様々なタスクを実行できる点。 Transformerを使って7つタスクを同時に学習する部分。
画像の読み込みは、DETRと同じようにCNNで抽象化してからTransformerに入れる、テキストはBERTを使って読み込んでいる。
結果
SotA性能とまではいかないまでも、微調整なしで最新鋭モデルに比肩する結果を出す。
その他(なぜ通ったか?等)
arXivの初出の時の論文名は"Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer"(今は修正済み)
- …
- …