#351
summarized by : 日坂 幸次
Graph-Structured Referring Expression Reasoning in the Wild

どんな論文か?

説明文と画像を構造化し、画像と説明文の紐づけを行う
placeholder

新規性

既存の物は、言語構造を無視して全体的な表現の学習であったり、主語-関係-目的語等の固定の関係を使用したり、複雑な表現の解析はできなかった。a Scene Graph guided modular network (SGMN)を使用することで、複雑な言語構造を理解し、画像の内容を推論する。

結果

SGMNが、CNN+LSTMなど、既存のモデルに比べて全てにおいて最高のスコアを達成。また、Ref-Reasoning datasetだけでなく通常のデータセットにも使用することが出来る。

その他(なぜ通ったか?等)

複雑な言語表現の解析が可能になったことと、既存モデルを越えたスコアを達した為。