The Abduction of Sherlock Holmes: A Dataset for Visual Abductive Reasoning

#143

summarized by : Masanori YANO

Jack Hessel; Jena D. Hwang; Jae Sung Park; Rowan Zellers; Chandra Bhagavatula; Anna Rohrbach; Kate Saenko; Yejin Choi

画像及び手がかりとなる文から、適切な仮説推論を行う大規模なデータセット及び手法に関する論文。推定する内容が「推理」に近いため、シャーロック・ホームズにかけた名称となっている。

バウンディングボックスと、手がかりとなる文と回答文に相当する仮説推論の文をアノテーションした「Sherlock」コーパスを構築した。

Visual GenomeとVCRの画像103K枚に対し、363K種類の手がかりと仮説推論のペア及びバウンディングボックスのアノテーションを実施した。また、CLIPをファインチューニングして構築したモデルは、3種類のタスクで従来手法を上回る結果。

新たな枠組みのデータセットを構築したことで通ったと考えられる。データセットとソースコードとリーダーボード( http://visualabduction.com/ )が公開されている。著者のうち一人の所属が、MIT-IBM 「Watson」 AIで興味深い。

このページで利用されている画像は論文から引用しています．