#453
summarized by : Yue Qiu
Transform and Tell: Entity-Aware News Image Captioning

どんな論文か?

News image captioningのための手法を提案.News images captioningに2つの難点:①実世界知識に頼る; ②linguistically richなCaptionが多く,Uncommon wordsを使う.①に対してmulti-modal, multi-head attentionで画像、顔、物体などの情報を使う.②に対しSOTAなTransformerを使用.
placeholder

新規性

①フレームワークの構成パーツがSOTAなモデルを構築し,News image captioningというハードルが高いImage captioningにおいて有用性を示した.このようなことから,現在の技術が正しい方向で進んでいることも側面からわかる.②従来のデータセットGoodNewsをベースにGoodNewsより70%大きいデータセットNYTimes800kを提案.

結果

従来のSOTAな手法より桁違い大幅な精度向上を得られた.(BLEU-4を0.89から6.05まで更新;CIDErを13.1から53.8まで更新)

その他(なぜ通ったか?等)

News記事の画像のCaptioningに膨大なデータが必要で、この研究室でソースデータセットを持っている;また,News記事のV&L研究が重要だが,やっている人が比較的に少なそう;News記事の研究とほかのContext情報が豊のほかの研究につなげられる(例:Web-pageの内容理解など).