NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion

#100

summarized by : Akihiro FUJII

Chenfei Wu; Jian Liang; Lei Ji; Fan Yang; Yuejian Fang; Daxin Jiang; Nan Duan

テキスト/画像/動画を扱え、画像や動画のテキストによる改変操作、Text2Imageなど様々なタスクに活用できる事前学習モデルNUWAを提案した研究。それを達成するために、空間と時間方向のAttentionを低計算コストで行える3D Nearby Attention (3DNA)を使っている。

８つのタスクを実行できること、空間と時間方向のAttentionを低計算コストで行える3D Nearby Attention (3DNA)の提案。

8つのダウンストリームで高い性能を発揮した。

https://github.com/microsoft/NUWA

このページで利用されている画像は論文から引用しています．