#359
summarized by : Shintaro Yamamoto
In Defense of Grid Features for Visual Question Answering

どんな論文か?

VQAなどのvision-and-language研究では、bottom-up attentionを用いた研究が主流となっている。Bottom-up attentionの何が有効であるのかを検証するために、入力画像を均等に分割するgridごとの特徴抽出との比較実験を行った。
placeholder

新規性

Bottom-up attentionで用いられる物体検出器に関して、学習後にbounding boxではなくbackboneとなるネットワーク(実験ではResNet)のgridごとの特徴を用いたモデルを構築し、bottom-up attentionとの比較実験を実施。

結果

Bottom-up attention自体が有効なのではなく、(1)物体検出器の事前学習(2)入力画像の解像度の2つが精度向上に寄与しており、実際にはgridごとの特徴を用いてもbottom-up attentionと精度が変わらないことが明らかになった。むしろ、gridごとの方が計算時間が早くなる。

その他(なぜ通ったか?等)

最近の研究ではbottom-up attentionを用いるのが常識であったので、bottom-up attentionが有効でないことを示したのは面白い