X-Linear Attention Networks for Image Captioning

#688

summarized by : Seitaro Shinagawa

Yingwei Pan, Ting Yao, Yehao Li, Tao Mei

どんな論文か？

特徴量同士の高次の関係性を捉えられ、VQAで有効性が報告されてきたBilinear Poolingをattentionに組み込んだ X-Linear attention (X-LAN)を提案。これまで1次のインタラクションしか考慮されずにいたimage-captioningで評価し、有効性を確認した。Transformerとの組合せも容易で、これが最高性能となった。

新規性

cross-modalityを扱う上で、異なる特徴間の関係性の考慮は重要だが、image-captioningでは1次の関係性しか考慮していないことが多かった。X-Linear attentionでは、VQAで用いられるBilinear Poolingをattentionに組込み、特徴量間の2次の関係性を考慮することでimage-captioningの性能を向上させた。

結果

image-captioningのベンチマークとして知られるCOCOデータセットで評価。評価指標はBLEU@N、METEOR、ROUGE-L、CIDEr、SPICEの5つ。10のベースライン手法と比較し、X-LANとTransformerを組合わせたモデルをcross-entropyで学習、CIDErでfine-tuningして学習させたものが各評価指標で最高性能となった。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．