#241
summarized by : shirouhi satoshi
Listen to the Image

どんな論文か?

盲目者のために、視覚情報を音声に変換して伝える装置Sensory Substitution deviceがある。この装置を使ってもらうためには、変換を自動で最適化する必要がある。本研究は既存の最適化の問題となっていた点を改良。また、後天的盲目者用のモデルだけでなく先天的盲目者用のモデルも提案。
placeholder

新規性

GANを使った先天的盲目者用のモデルを提案。画像から音声へ変換する適切なenocdeの最適化を提案。具体的な変化は2つ。音声の長さを意図的に増やす。画像の領域と周波数幅の関係が既存のものは指数分布となっていたが、tanh分布にした。これにより、人が効きやすいといわれている2k~5kHzに画像の中心が当てはまるようにした。

結果

音声の長さ、周波数幅を調整することで、音から生成される画像が元の画像がくっきり生成できた。画像から生成した音声によって行う分類の精度も2つの改善により向上。

その他(なぜ通ったか?等)