Explicit Image Caption Editing

#11

summarized by : Takeru Endo

Zhen Wang; Long Chen; Wenbo Ma; Guangxing Han; Yulei Niu; Jian Shao; Jun Xiao

どんな論文か？

与えられた画像キャプションに対し、キャプションをより正確なキャプションに変換することを目的とする。既存研究では、その変換の過程がわからなかった。本研究では、元のキャプションに対し「1.削除する単語の決定、2.単語を追加する位置の決定、3. 2.の位置に埋める単語の決定」の3つの段階でキャプションを編集することによって、その過程を明確にしている。

新規性

キャプションの編集過程を明確化する新しい視覚言語タスクを提案し、新規データセットを作成した。またベンチマークモデルとしてTIgerを提案した。

結果

参照キャプションを正確なキャプションに変換するというタスクにおいて、先行研究よりも高品質なキャプションに変換できていることを確認した。

その他（なぜ通ったか？等）

Github: https://github.com/baaaad/ECE

このページで利用されている画像は論文から引用しています．