Connecting Vision and Language with Localized Narratives

#21

summarized by : Keisuke Kamahori

Jordi Pont-Tuset, Jasper Uijlings, Soravit Changpinyo, Radu Soricut, Vittorio Ferrari

マウスを動かしながら人に画像を口頭で説明させ、それを文字に起こすことで、画像・テキスト・音声・画像内での位置を対応づける Localized Narratives のデータセットを用意し、その有用性を示した。

848,749枚の画像に対して豊富で高品質なデータを対応づけたことで、様々な応用が期待できる。 Bounding box などよりも人にとって自然な形のデータであり、用意するのにかかった時間も比較的短い。

Image captioning において、マウスの動きも学習に加えることが性能向上につながった。

https://google.github.io/localized-narratives/

このページで利用されている画像は論文から引用しています．