#201
summarized by : Yuto Shinahara
Fine-Grained Visual Entailment

どんな論文か?

画像とその画像に関する仮説(テキスト)が与えられたときに、仮説が真/偽/中立のいずれであるかを分類するタスクVisual Entailmentを、よりFine-grainedに発展させた論文。従来は仮説全体の主張に対して分類を行っていたが、本論文では仮説を構成する主張(Knowledge Elements: KEs)単位に分解し、それらの関係性を抽象的意味表現(AMR)グラフで予測することに挑戦。
placeholder

新規性

①Fine-grainedなVisual Entailmentタスクをはじめて提案。②専門家による高度なアノテーション済データセットを構築し、評価用ベンチマークを設定。③画像とテキストのクロスモーダルな情報から、各KE・AMRグラフを適切に表現する手法を考案。④マルチインスタンス学習(MIL)のフレームワークに落とし込み、仮説全体に対するラベルだけでKE単位の予測を行えるようにした。

結果

アブレーション実験を行い、ベースラインと比較して提案手法の優位性を確認した。また、画像内のどの領域の情報からどのKnowledge Elementsが導出されているかの視覚的証拠も提示した。

その他(なぜ通ったか?等)

GitHub: https://github.com/SkrighYZ/FGVE