In Defense of Grid Features for Visual Question Answering

#359

summarized by : Shintaro Yamamoto

Huaizu Jiang, Ishan Misra, Marcus Rohrbach, Erik Learned-Miller, Xinlei Chen

どんな論文か？

VQAなどのvision-and-language研究では、bottom-up attentionを用いた研究が主流となっている。Bottom-up attentionの何が有効であるのかを検証するために、入力画像を均等に分割するgridごとの特徴抽出との比較実験を行った。

新規性

Bottom-up attentionで用いられる物体検出器に関して、学習後にbounding boxではなくbackboneとなるネットワーク(実験ではResNet)のgridごとの特徴を用いたモデルを構築し、bottom-up attentionとの比較実験を実施。

結果

Bottom-up attention自体が有効なのではなく、(1)物体検出器の事前学習(2)入力画像の解像度の2つが精度向上に寄与しており、実際にはgridごとの特徴を用いてもbottom-up attentionと精度が変わらないことが明らかになった。むしろ、gridごとの方が計算時間が早くなる。

その他（なぜ通ったか？等）

最近の研究ではbottom-up attentionを用いるのが常識であったので、bottom-up attentionが有効でないことを示したのは面白い

このページで利用されている画像は論文から引用しています．