FusionVAE: A Deep Hierarchical Variational Autoencoder for RGB Image Fusion

summarized by : Shingo Nakazawa

Fabian Duffhauss; Ngo Anh Vien; Hanna Ziesche; Gerhard Neumann

どんな論文か？

複数のソースからの情報を組み合わせて、一つのソースからのみでは得られない情報の抽出を試みる「センサフュージョン」分野の論文。断片化した画像から（画像が複数枚あれば統合し）欠けている領域を推論・生成して埋めた画像を返す、FusionVAEという手法を提案。また、こうした課題向けの性能評価用データセットを3種類作成した。

新規性

これまでのセンサフュージョン分野の仕事の多くは、複数のデータソースの情報を集め、ソースとは異なるデータに対しての情報取得・推測を主なターゲットとしてきた。一方で本論文はデータソース自身に着目し、複数のソースの情報統合に加え、トレーニングの過程で得た「ソースデータに関する知識」を付与することで、「断片的な情報しか持たないインプットデータ自身の、欠落している部分の推測・復元」を可能にした。

結果

MNIST, CelebA, T-LESSをベースとし、画像の一部を隠したりノイズを加えたりしたデータセットを作成 (FusionMNIST, FusionCelebA, FusionT-LESS. Figs.3-5)。これから元の画像を復元できるかに挑戦。 Fully convolutional network, Conditional context VAE と比較して良いスコアを示した。

その他（なぜ通ったか？等）

著者曰く "To the best of our knowledge, FusionVAE is the first fusion network for multiple images with a generative ability to fill areas without ...略" 発想自体は過去にもありそうな仕事なので、何がキーとなって今実現されたのかという観点で考察してみたい。

このページで利用されている画像は論文から引用しています．