#618
summarized by : Ryosuke Oshima
Globetrotter: Connecting Languages by Connecting Images

どんな論文か?

教師なしの機械翻訳を、言語情報とビジュアル情報をうまくアライメントすることで実現した。
placeholder

新規性

各言語によって、物体等の名前は異なるがその物体自体のビジュアルは変わらない(右の画像だと自転車)ということに着目し、対照学習による機械翻訳を行なった。また、そのための多言語のマルチモーダルデータセットを構築した。

結果

他の教師なしのベースライン手法よりも主観・定量評価ともに良い精度。

その他(なぜ通ったか?等)

機械翻訳という、NLPの分野の問題をビジュアル情報をうまく用いて行うという発想が面白い。 https://globetrotter.cs.columbia.edu/