#629
summarized by : Tosho Hirasawa
VALHALLA: Visual Hallucination for Machine Translation

どんな論文か?

訓練時は画像・原文を入力とすることができるが、推論時は原文のみを使うマルチモーダル機械翻訳タスクに対し、VQGAN VAE を用いて画像を離散的なトークン様な特徴量に落とし込みその差異を学習するモデルを提案した。
placeholder

新規性

離散的な特徴量を利用することが特徴的である。これまでに使用されていた連続的な画像特徴量(ResNetなど)に比べ、seq2seq な機械翻訳と相性がよいと考えられる。

結果

ベースラインに加え、同様の設定な先行研究と比べても性能が向上していることが確認できた。他の画像特徴量に比べても離散的画像特徴量が有効であることが示された。

その他(なぜ通ったか?等)

主な結果だけではなく、画像特徴量の種類やモデルの大きさなど多くのパラメータについて調べられている。