- …
- …
#351
summarized by : 日坂 幸次
新規性
既存の物は、言語構造を無視して全体的な表現の学習であったり、主語-関係-目的語等の固定の関係を使用したり、複雑な表現の解析はできなかった。a Scene Graph guided modular network (SGMN)を使用することで、複雑な言語構造を理解し、画像の内容を推論する。
結果
SGMNが、CNN+LSTMなど、既存のモデルに比べて全てにおいて最高のスコアを達成。また、Ref-Reasoning datasetだけでなく通常のデータセットにも使用することが出来る。
その他(なぜ通ったか?等)
複雑な言語表現の解析が可能になったことと、既存モデルを越えたスコアを達した為。
- …
- …