Listen to the Image

#241

summarized by : shirouhi satoshi

Di Hu, Dong Wang, Xuelong Li, Feiping Nie, Qi Wang

どんな論文か？

盲目者のために、視覚情報を音声に変換して伝える装置Sensory Substitution deviceがある。この装置を使ってもらうためには、変換を自動で最適化する必要がある。本研究は既存の最適化の問題となっていた点を改良。また、後天的盲目者用のモデルだけでなく先天的盲目者用のモデルも提案。

新規性

GANを使った先天的盲目者用のモデルを提案。画像から音声へ変換する適切なenocdeの最適化を提案。具体的な変化は2つ。音声の長さを意図的に増やす。画像の領域と周波数幅の関係が既存のものは指数分布となっていたが、tanh分布にした。これにより、人が効きやすいといわれている2k~5kHzに画像の中心が当てはまるようにした。

結果

音声の長さ、周波数幅を調整することで、音から生成される画像が元の画像がくっきり生成できた。画像から生成した音声によって行う分類の精度も2つの改善により向上。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．