- …
- …
#359
summarized by : Shintaro Yamamoto
どんな論文か?
VQAなどのvision-and-language研究では、bottom-up attentionを用いた研究が主流となっている。Bottom-up attentionの何が有効であるのかを検証するために、入力画像を均等に分割するgridごとの特徴抽出との比較実験を行った。
新規性
Bottom-up attentionで用いられる物体検出器に関して、学習後にbounding boxではなくbackboneとなるネットワーク(実験ではResNet)のgridごとの特徴を用いたモデルを構築し、bottom-up attentionとの比較実験を実施。
結果
Bottom-up attention自体が有効なのではなく、(1)物体検出器の事前学習(2)入力画像の解像度の2つが精度向上に寄与しており、実際にはgridごとの特徴を用いてもbottom-up attentionと精度が変わらないことが明らかになった。むしろ、gridごとの方が計算時間が早くなる。
その他(なぜ通ったか?等)
最近の研究ではbottom-up attentionを用いるのが常識であったので、bottom-up attentionが有効でないことを示したのは面白い
- …
- …