#23
summarized by : Seitaro Shinagawa
Learning by Planning: Language-Guided Global Image Editing

どんな論文か?

自然言語の編集指示文による画像編集のタスクにおいて、編集指示がより具体的な操作系列で構成されるものだと考えてタスクを再定義し、強化学習で最適化する手法T2ONetを提案。このためのデータセットMA5k-Req、GIERデータセットも提案した。
placeholder

新規性

従来の手法はGANベースで1ターンごとの編集を行うものが多かった。複数ターンを扱うものはCLEVRなどのトイデータセットを使っているものが多く、本研究は複数ターンで人手で付与された編集指示文を用いる実践的な問題設定で、このために新しくデータセットを作製している点が新しい。

結果

編集がすべて終了した後の画像をSSIM、FIDで評価し、関連する既存手法を上回った。

その他(なぜ通ったか?等)

コードはhttps://github.com/jshi31/T2ONetで公開予定とのこと / 強化学習を用いているので、本来ならまだ色々な設定での応用が考えられそう。例えば、本研究は必ず5ターンの編集を行っているようだが、ターン数を短くするような報酬を加えると、より短い操作で目的を達成するなど。個々の具体的な操作系列のデータは存在しなくても最適化することができそうで、その結果も見たかった。