Bounding-box Channels for Visual Relationship Detection

#198

summarized by : Masanori YANO

Sho Inayoshi, Keita Otani, Antonio Tejero-de-Pablos, Tatsuya Harada

物体検出された対象同士の関係性を推定するVRD(Visual Relationship Detection)において、画像を畳み込んだ特徴と、単語とその関係性の特徴と、画像における位置関係の3種類の情報を関連付けて入力する手法。

RoI Alignで領域を抽出し、2個の検出された対象物それぞれで、単語とその関係性から得られる前景用と背景用のベクトルで3次元の空間を満たし、それら2個を画像の特徴と結合させてCNNへの入力とするBounding-box Channelsを提案した。

Bounding-box Channelsを組み込んだBBCNetは、VRDデータセット及びVisual Genomeデータセットを使用した比較評価で、従来手法を上回る結果。

VRDのタスクで重要な、画像における位置関係の情報を落とさずCNNに入力できる手法で、かつ実験により従来手法に対する優位性を示したため通ったと考えられる。

このページで利用されている画像は論文から引用しています．