#108
summarized by : Anonymous
TransGeo: Transformer Is All You Need for Cross-View Image Geo-Localization

どんな論文か?

cross-view geo-localization というタスクに関して、Transformer を用い、SoTAを達成したという論文。cross-view geo-localization はストリート画像を空中から撮られた画像(衛星画像、航空画像など)とマッチングするタスクのこと。
placeholder

新規性

・Transformerを初めてこのタスクに利用した論文ではないことに注意(L2LTR, Hongji et al. 2021)。 ・Attention 機構 "attend and zoom in" 注目する場所を学習し解像度を上げて入力することで、不要な情報を減らし、必要なものを増やすことで効率よくTransformerに入力できる。解像度を上げる部分が新規性だと思われる。

結果

CVUSA、VIGORでSoTA

その他(なぜ通ったか?等)

なぜ通ったか? ・"attend and zoom in"機構 ・計算量まで論じている。 ・最新の研究結果をよく調べて使っている(2021の論文も多く用いている) 感想 CVUSAは90%以上の戦い。VIGORはまだ改善の余地がありそう。最終的には、応用として看板などの文字を読み取って照合しながら正確性を高めていくのだろうか(ずる?)。 ・"All You Need" チルドレン