- …
- …
#143
summarized by : Masanori YANO
新規性
バウンディングボックスと、手がかりとなる文と回答文に相当する仮説推論の文をアノテーションした「Sherlock」コーパスを構築した。
結果
Visual GenomeとVCRの画像103K枚に対し、363K種類の手がかりと仮説推論のペア及びバウンディングボックスのアノテーションを実施した。また、CLIPをファインチューニングして構築したモデルは、3種類のタスクで従来手法を上回る結果。
その他(なぜ通ったか?等)
新たな枠組みのデータセットを構築したことで通ったと考えられる。データセットとソースコードとリーダーボード( http://visualabduction.com/ )が公開されている。著者のうち一人の所属が、MIT-IBM 「Watson」 AIで興味深い。
- …
- …