- …
- …
#100
summarized by : Akihiro FUJII
どんな論文か?
テキスト/画像/動画を扱え、画像や動画のテキストによる改変操作、Text2Imageなど様々なタスクに活用できる事前学習モデルNUWAを提案した研究。それを達成するために、空間と時間方向のAttentionを低計算コストで行える3D Nearby Attention (3DNA)を使っている。
新規性
8つのタスクを実行できること、空間と時間方向のAttentionを低計算コストで行える3D Nearby Attention (3DNA)の提案。
結果
8つのダウンストリームで高い性能を発揮した。
その他(なぜ通ったか?等)
https://github.com/microsoft/NUWA
- …
- …