Scan2Cap: Context-Aware Dense Captioning in RGB-D Scans

#25

summarized by : Katsuyuki Nakamura

Zhenyu Chen, Ali Gholami, Matthias Nießner, Angel X. Chang

RGBDデータを入力として、物体のバウンディングボックスと説明文を出力するDense captioningを提案

（タスク新規性）3DシーンにおけるDense captioningタスク、（技術的な新規性）関係グラフを用いて空間配置を考慮した文章生成モジュール

ScanReferデータセット※において、キャプショニング精度が大幅に向上（CiDErで＋27.61ポイント） ※同じ研究グループによってECCV2020で提案されたデータセット

https://daveredrum.github.io/Scan2Cap/

このページで利用されている画像は論文から引用しています．