- …
- …
#198
summarized by : Masanori YANO
どんな論文か?
物体検出された対象同士の関係性を推定するVRD(Visual Relationship Detection)において、画像を畳み込んだ特徴と、単語とその関係性の特徴と、画像における位置関係の3種類の情報を関連付けて入力する手法。
新規性
RoI Alignで領域を抽出し、2個の検出された対象物それぞれで、単語とその関係性から得られる前景用と背景用のベクトルで3次元の空間を満たし、それら2個を画像の特徴と結合させてCNNへの入力とするBounding-box Channelsを提案した。
結果
Bounding-box Channelsを組み込んだBBCNetは、VRDデータセット及びVisual Genomeデータセットを使用した比較評価で、従来手法を上回る結果。
その他(なぜ通ったか?等)
VRDのタスクで重要な、画像における位置関係の情報を落とさずCNNに入力できる手法で、かつ実験により従来手法に対する優位性を示したため通ったと考えられる。
- …
- …