summarized by : Ryosuke Oshima
Dídac Surís; Dave Epstein; Carl Vondrick
教師なしの機械翻訳を、言語情報とビジュアル情報をうまくアライメントすることで実現した。
各言語によって、物体等の名前は異なるがその物体自体のビジュアルは変わらない(右の画像だと自転車)ということに着目し、対照学習による機械翻訳を行なった。また、そのための多言語のマルチモーダルデータセットを構築した。
他の教師なしのベースライン手法よりも主観・定量評価ともに良い精度。
機械翻訳という、NLPの分野の問題をビジュアル情報をうまく用いて行うという発想が面白い。
https://globetrotter.cs.columbia.edu/