- …
- …
#21
summarized by : Keisuke Kamahori
どんな論文か?
マウスを動かしながら人に画像を口頭で説明させ、それを文字に起こすことで、画像・テキスト・音声・画像内での位置を対応づける Localized Narratives のデータセットを用意し、その有用性を示した。
新規性
848,749枚の画像に対して豊富で高品質なデータを対応づけたことで、様々な応用が期待できる。
Bounding box などよりも人にとって自然な形のデータであり、用意するのにかかった時間も比較的短い。
結果
Image captioning において、マウスの動きも学習に加えることが性能向上につながった。
その他(なぜ通ったか?等)
https://google.github.io/localized-narratives/
- …
- …