#143
summarized by : Masanori YANO
The Abduction of Sherlock Holmes: A Dataset for Visual Abductive Reasoning

どんな論文か?

画像及び手がかりとなる文から、適切な仮説推論を行う大規模なデータセット及び手法に関する論文。推定する内容が「推理」に近いため、シャーロック・ホームズにかけた名称となっている。
placeholder

新規性

バウンディングボックスと、手がかりとなる文と回答文に相当する仮説推論の文をアノテーションした「Sherlock」コーパスを構築した。

結果

Visual GenomeとVCRの画像103K枚に対し、363K種類の手がかりと仮説推論のペア及びバウンディングボックスのアノテーションを実施した。また、CLIPをファインチューニングして構築したモデルは、3種類のタスクで従来手法を上回る結果。

その他(なぜ通ったか?等)

新たな枠組みのデータセットを構築したことで通ったと考えられる。データセットとソースコードとリーダーボード( http://visualabduction.com/ )が公開されている。著者のうち一人の所属が、MIT-IBM 「Watson」 AIで興味深い。