#21
summarized by : Keisuke Kamahori
Connecting Vision and Language with Localized Narratives

どんな論文か?

マウスを動かしながら人に画像を口頭で説明させ、それを文字に起こすことで、画像・テキスト・音声・画像内での位置を対応づける Localized Narratives のデータセットを用意し、その有用性を示した。
placeholder

新規性

848,749枚の画像に対して豊富で高品質なデータを対応づけたことで、様々な応用が期待できる。 Bounding box などよりも人にとって自然な形のデータであり、用意するのにかかった時間も比較的短い。

結果

Image captioning において、マウスの動きも学習に加えることが性能向上につながった。

その他(なぜ通ったか?等)

https://google.github.io/localized-narratives/