#100
summarized by : Akihiro FUJII
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion

どんな論文か?

テキスト/画像/動画を扱え、画像や動画のテキストによる改変操作、Text2Imageなど様々なタスクに活用できる事前学習モデルNUWAを提案した研究。それを達成するために、空間と時間方向のAttentionを低計算コストで行える3D Nearby Attention (3DNA)を使っている。
placeholder

新規性

8つのタスクを実行できること、空間と時間方向のAttentionを低計算コストで行える3D Nearby Attention (3DNA)の提案。

結果

8つのダウンストリームで高い性能を発揮した。

その他(なぜ通ったか?等)

https://github.com/microsoft/NUWA