#33
summarized by : Shuhei M Yoshida
Linguistic Structures As Weak Supervision for Visual Scene Graph Generation

どんな論文か?

人物・物体とその関係を表すシーングラフを生成する手法に関する論文。シーングラフそのものの正解情報を与える代わりに、画像についているキャプションを弱い教師としてシーングラフ生成を学習する手法を提案する。
placeholder

新規性

キャプションを弱い教師としてシーングラフ生成を学習する設定自体に新規性がある。キャプションをグラフ化しRoI特徴量と対応付けることでシーングラフの疑似ラベルを生成し学習する方法、およびRNNを使って予測結果をrefineする手法を提案。

結果

VisualGenomeとMSCOCOを使って評価。評価指標はRecall@50とRecall@100。教師ありの多くの方法には及ばないが、VG-GT-Graphという設定では既存の弱教師あり学習よりも高い精度が出ることを示した(ただしVG-Cap-Graphでは弱教師のVSPNetに負ける)。

その他(なぜ通ったか?等)

GT-Graphという設定では、シーングラフの正解情報から言語の特徴量を生成して教師としている。キャプションのみから学習するCap-Graphと比べてかなり精度が高いが、Cap-GraphでGT-Graphと同等の精度を達成できるキャプション情報の量を示せなければこの問題設定においてGT-Graphでの評価の意味はあまりない気がする。既存の弱教師より高精度であると主張するための方便か。