#66
summarized by : Teppei Kurita
TSIT: A Simple and Versatile Framework for Image-to-Image Translation

どんな論文か?

画像から画像に変換するタスクにおいて、教師あり教師なし共に統一的に扱えるシンプルなネットワークの提案。簡単に言うとpix2pixとCycleGANのような操作が同じネットワークとロス関数(Cycle-Consistency不要)で可能になるということ。しかも性能が高い。
placeholder

新規性

ネットワークはソースとターゲットからそれぞれコンテンツとスタイルの特徴を抽出する2つのEncoderからなり、各解像度で抽出された特徴をそれぞれ生成器に統合していく。このときに各特徴量を用いてジェネレータでの生成物を正規化(FADE, FAdaIN)をしていくのがキモ。

結果

Style Transferタスク、セマンティック画像合成タスクについて、定量・定性評価ともに従来手法と比較し、性能向上を確認。

その他(なぜ通ったか?等)

ネットワークの各ブロックは非常にシンプルな残差構造であり、全体のアーキテクチャも対称性がありわかりやすい。これで本当に様々なタスクへの汎用性があり、性能も高いなら、これから色々使われていきそうだなと思った。