Fully Convolutional Scene Graph Generation

summarized by : Shuhei M Yoshida

Hengyue Liu, Ning Yan, Masood Mortazavi, Bir Bhanu

どんな論文か？

人物・物体とそれらの関係性を表現したグラフ、シーングラフを生成する手法に関する論文。ほとんどの従来手法が、前段で物体検知器を使って人物・物体を検知し、後段で検知されたもの同士の関係を推論する、という構成になっており、計算量・推論時間が大きいという問題がある。

新規性

RoI poolingなどを挟まないCNNだけで構成されたシーングラフ生成器のアーキテクチャを提案。CNNは、CenterNetのように物体の中心位置や大きさを表現した特徴量マップと、OpenPoseのPAFように物と物との関係性をベクトルで表現したRelational Affinity Fieldsとを出力する。これらから最終的なアウトプットであるシーングラフを構成する。

結果

従来手法よりも40％以上、ものによっては10倍以上の高速化を実現。

その他（なぜ通ったか？等）

（アブストではcompetitiveと主張しているものの、実際には）精度が目に見えて落ちているため、単に速度が上がったと主張することにどれだけ意味があるか悩ましい。従来手法と提案手法をそれぞれ適当にスケールさせて、精度と速度のトレードオフを描いて比較したい気がする。

このページで利用されている画像は論文から引用しています．