Transform and Tell: Entity-Aware News Image Captioning

#453

summarized by : Yue Qiu

Alasdair Tran, Alexander Mathews, Lexing Xie

どんな論文か？

News image captioningのための手法を提案．News images captioningに2つの難点：①実世界知識に頼る; ②linguistically richなCaptionが多く，Uncommon wordsを使う．①に対してmulti-modal, multi-head attentionで画像、顔、物体などの情報を使う．②に対しSOTAなTransformerを使用．

新規性

①フレームワークの構成パーツがSOTAなモデルを構築し，News image captioningというハードルが高いImage captioningにおいて有用性を示した．このようなことから，現在の技術が正しい方向で進んでいることも側面からわかる．②従来のデータセットGoodNewsをベースにGoodNewsより70%大きいデータセットNYTimes800kを提案．

結果

従来のSOTAな手法より桁違い大幅な精度向上を得られた．(BLEU-4を0.89から6.05まで更新；CIDErを13.1から53.8まで更新)

その他（なぜ通ったか？等）

News記事の画像のCaptioningに膨大なデータが必要で、この研究室でソースデータセットを持っている；また，News記事のV&L研究が重要だが，やっている人が比較的に少なそう；News記事の研究とほかのContext情報が豊のほかの研究につなげられる（例：Web-pageの内容理解など）．

このページで利用されている画像は論文から引用しています．