Visual Grounding in Video for Unsupervised Word Translation

#362

summarized by : Masuyama Yoshiki

Gunnar A. Sigurdsson, Jean-Baptiste Alayrac, Aida Nematzadeh, Lucas Smaira, Mateusz Malinowski, João Carreira, Phil Blunsom, Andrew Zisserman

どんな論文か？

動画とその内容を説明したテキスト(音声からASRで作成)のペアコーパスを用いて，教師なしで単語翻訳を行う手法を提案．テキストと動画の対応をNCEロスで学習する際に，複数の言語を同一の分散表現空間に落とし込むようなAdaptation layerを導入する．このAdaptation layerを従来のテキストベースの教師なし手法で改良し，翻訳に用いる．

新規性

従来のVisual-guidedな翻訳の研究の多くは，同じ動画像を説明する複数言語（例: 英語/フランス語）のテキストを必要としていた．提案手法では，英語のテキストがついた動画とフランス語のテキストが別の場合にも適用可能．

結果

英語/フランス語のように似た言語の場合は，テキスト内での単語の共起関係にもとづく手法と同程度の性能だが，英語/日本語のような似ていない言語の場合はビデオを用いる提案手法の方がロバスト．

その他（なぜ通ったか？等）

テキストとビデオを組み合わせる部分のアイデアはシンプルだが、複数言語でDNNを共有したり従来のテキストベースの手法とうまく組み合わせることで性能を稼いでいる．

このページで利用されている画像は論文から引用しています．