FAIEr: Fidelity and Adequacy Ensured Image Caption Evaluation

#30

summarized by : Seitaro Shinagawa

Sijin Wang, Ziwei Yao, Ruiping Wang, Zhongqin Wu, Xilin Chen

どんな論文か？

画像の説明文生成のタスクの評価のうち、説明文と対象画像の関連性（fidelity）、画像の要点を適切に伝えているか（adequacy）をより適切に評価する方法として、FAIErという、スコアの予測モデルベースの手法を提案。スコアは画像と複数の参照説明文を組合わせて生成したシーングラフから抽出した特徴量と、評価対象となる生成文から構築したシーングラフの特徴量間のマッチングで算出する

新規性

参照文から構築したシーングラフで評価する方法としてはSPICEがあるが、これはシーングラフの2物体と関係の組を直接カウントしてスコアを出す。一方FAIErは、まず画像と参照文を同時に使う点が異なる。また、スコアの算出方法も、シーングラフの2物体と関係の組で直接比較するのではなく、シーングラフから抽出した特徴量のセットとしてマッチングのスコアを算出する点が異なっている。

結果

MSCOCOのテストデータ5,000画像から、人間による生成文（参照文1）、学習モデルによる生成文1、参照文4の組で構成される評価用データセットHM-COCOを作成して評価した。人間の評価との相関、人間の文を学習済みモデルの文より高くスコアを付けた割合、データセット間での評価の一貫性において既存手法を大きく上回った結果となった。

その他（なぜ通ったか？等）

網羅的に実験されていて、結果も非常に強い。補足：fidelityとadequacyはまとめて一つの尺度として扱われている。fidelityは画像中の物体が説明文に反映されているか、adequacyは説明の粒度が参照文と近いかどうかに関わるが、これをまとめて評価するのが提案手法のFAIErである模様。コードはhttp://vipl.ict.ac.cn/resources/codesで公開予定らしい

このページで利用されている画像は論文から引用しています．