- …
- …
#7
summarized by : Shuhei M Yoshida
どんな論文か?
シーン中の人物・物体とそれらの間の関係をグラフで表現したシーングラフを生成する手法に関する論文。従来の手法では、シーングラフの各構成要素(個々の人物・物体や関係性)に対してそれぞれ独立にクロスエントロピー損失を計算しており、学習において人物・物体・関係性の相関が取り入れられていないという問題を解決する。
新規性
シーングラフの構成要素間の相関を表現するため、画像とシーングラフの同時分布をenergy-based modelとしてモデル化。エネルギー損失を最小化するようにエネルギー関数とシーングラフ生成器を同時に学習。
また、シーングラフのエネルギー関数を表現するため、エッジとノードの間でmessage passingを行えるEdge Graph Neural Networksを提案。
結果
従来手法の損失関数をenergy-based model損失に置き換えることで、Visual Genomeベンチマークで21%、GQAベンチマークで27%の精度向上を達成(いずれも相対値)。
その他(なぜ通ったか?等)
きちんと相関を考慮した同時分布に基づいてロス計算をするという考え方が面白い、既存モデルに対してそのまま適用できる汎用性もある、そして実験が強い、といったことが採択につながったと思われる。
https://github.com/mods333/energy-based-scene-graph
- …
- …