#373
summarized by : Hiroaki Aizawa
Learning Words by Drawing Images

どんな論文か?

図に示すように,テキストの代わりにunlabelな発話された画像の説明文から,発話された言葉と視覚的属性間の対応関係を,絵を描くことから学習する枠組みを提案.具体的には,GANによって学習された視覚的な構造表現を利用し,発話された言葉のvisually-grounded modelを学習するためのカリキュラムを生成する学習法を提案.
placeholder

新規性

テキストが持つ構造的なsupervisionを除外した問題設定であり,発話言語と構成的な視覚表現との関連付けを行うことが新しい.GANが生成したCLEVR画像について人と合成音声のデータセットの提案.視覚概念が学習されたことを示すためのsemantic testの提案.

結果

実験より,GANが生成し編集した画像によって属性の学習に関する能力が向上したことがわかった.また提案する手法が発話言語とcolorやsizeなどの視覚概念と関連付けることができるモデルとなったことが確認できた.

その他(なぜ通ったか?等)