#230
summarized by : Shinnosuke Matsufusa
Cross-Modal Knowledge Transfer without Task-Relevant Source Data

どんな論文か?

大規模なラベル付きデータセットが、まだあまり存在しないモダリティ(DepthやNIRなど)では、深層学習モデルの十分な訓練ができない。そのため、大規模なデータセットが存在するモダリティ(RGB画像など)からタスクに関連する知識を取り込もうという論文。提案されたSOCKETという手法でそれが実現できて、既存のソースフリーな手法を精度面で大幅に上回った。
placeholder

新規性

そもそも、問題設定が新しい。以下のデータだけが得られている状態は、よくありそう。 ・別のモダリティ(Source Modality)だが、解きたいタスク(Task of Interest)を解いているモデル(Source Model) ・ラベル付けはされていないが、目的のモダリティ(Target Modality)のデータ ・ソースとターゲットのモダリティペア

結果

同じ問題設定をしていた研究が過去にないため明確な比較はできないものの、深さ推定の精度は、既存のソースフリーな手法と比較して大幅に上回っている。

その他(なぜ通ったか?等)

今まであまりフォーカスされてこなかった割には、かなりあるあるなシチュエーションを想定しているのだと思う。広くマルチモーダルな問題に適用できるため、この手法を導入して性能向上が見込めるモデルは数多くありそうである。