Graph-Structured Referring Expression Reasoning in the Wild

#351

summarized by : 日坂　幸次

Sibei Yang, Guanbin Li, Yizhou Yu

説明文と画像を構造化し、画像と説明文の紐づけを行う

既存の物は、言語構造を無視して全体的な表現の学習であったり、主語-関係-目的語等の固定の関係を使用したり、複雑な表現の解析はできなかった。a Scene Graph guided modular network (SGMN)を使用することで、複雑な言語構造を理解し、画像の内容を推論する。

SGMNが、CNN+LSTMなど、既存のモデルに比べて全てにおいて最高のスコアを達成。また、Ref-Reasoning datasetだけでなく通常のデータセットにも使用することが出来る。

複雑な言語表現の解析が可能になったことと、既存モデルを越えたスコアを達した為。

このページで利用されている画像は論文から引用しています．