#28
summarized by : Takuji Tahara
Dual Super-Resolution Learning for Semantic Segmentation

どんな論文か?

Semantic Segmentation に超解像を組み合わせることで、低解像度入力から高解像度の表現を獲得する Dual Super-Resolution Learning を提案。学習はSegmentationを行うSSSR、超解像を行うSISR、両者の整合性を取るFAを用いて行われる。推論時にSSSRのみを用いれば良いこともあり、計算量(FLOPS)が同程度の手法と比較して高い性能を発揮。
placeholder

新規性

多くの既存手法が入力と同じサイズの segmentation mask を出力して学習するのに対し、提案手法では入力よりも大きなサイズの mask を出力して学習する。SSSRによる segmentation、SISRによる超解像、FAによる特徴量の整合 の multi-task learning を行うことで、Decoder のみ(すなわち SSSR のみ) よりもうまく学習出来るのがポイント。

結果

Semantic Segmentation (CityScapes, CamVid)、 Human Pose Estimation (MSCOCO)で有効性を検証。入力サイズを揃えた比較において DeepLabv3+ 等の既存手法に組み合わせた場合に性能が向上することを確認。SSSR のみでも性能は向上するが SISR・FAも加えた方が性能向上が明確であり、特にFAの貢献が大きい。

その他(なぜ通ったか?等)

発想としては非常にシンプルでわかりやすい。SSSR のみなら新規性は弱かったと思われるが、超解像と結び付けたこと・両者の整合性を取る FA の貢献を明確にしたことが大きいと思われる。またこの手法は入力サイズが小さいほど適用した際の性能の上がり幅が大きく、モチベーションで語られているエッジデバイス等での実装に貢献しそうな点も評価されたのではないか。