VALHALLA: Visual Hallucination for Machine Translation

#629

summarized by : Tosho Hirasawa

Yi Li; Rameswar Panda; Yoon Kim; Chun-Fu (Richard) Chen; Rogerio S. Feris; David Cox; Nuno Vasconcelos

訓練時は画像・原文を入力とすることができるが、推論時は原文のみを使うマルチモーダル機械翻訳タスクに対し、VQGAN VAE を用いて画像を離散的なトークン様な特徴量に落とし込みその差異を学習するモデルを提案した。

離散的な特徴量を利用することが特徴的である。これまでに使用されていた連続的な画像特徴量（ResNetなど）に比べ、seq2seq な機械翻訳と相性がよいと考えられる。

ベースラインに加え、同様の設定な先行研究と比べても性能が向上していることが確認できた。他の画像特徴量に比べても離散的画像特徴量が有効であることが示された。

主な結果だけではなく、画像特徴量の種類やモデルの大きさなど多くのパラメータについて調べられている。

このページで利用されている画像は論文から引用しています．