- …
- …
#453
summarized by : Yue Qiu
どんな論文か?
News image captioningのための手法を提案.News images captioningに2つの難点:①実世界知識に頼る; ②linguistically richなCaptionが多く,Uncommon wordsを使う.①に対してmulti-modal, multi-head attentionで画像、顔、物体などの情報を使う.②に対しSOTAなTransformerを使用.
新規性
①フレームワークの構成パーツがSOTAなモデルを構築し,News image captioningというハードルが高いImage captioningにおいて有用性を示した.このようなことから,現在の技術が正しい方向で進んでいることも側面からわかる.②従来のデータセットGoodNewsをベースにGoodNewsより70%大きいデータセットNYTimes800kを提案.
結果
従来のSOTAな手法より桁違い大幅な精度向上を得られた.(BLEU-4を0.89から6.05まで更新;CIDErを13.1から53.8まで更新)
その他(なぜ通ったか?等)
News記事の画像のCaptioningに膨大なデータが必要で、この研究室でソースデータセットを持っている;また,News記事のV&L研究が重要だが,やっている人が比較的に少なそう;News記事の研究とほかのContext情報が豊のほかの研究につなげられる(例:Web-pageの内容理解など).
- …
- …