CLIP-Event: Connecting Text and Images With Event Structures

#323

summarized by : QIUYUE

Manling Li; Ruochen Xu; Shuohang Wang; Luowei Zhou; Xudong Lin; Chenguang Zhu; Michael Zeng; Heng Ji; Shih-Fu Chang

どんな論文か？

既存の視覚言語事前学習モデルは画像中の物体やEntitiesの認識をメインで行われている。画像やテキストに含まれるイベント構造レベルの理解に関する検討が少なかった。ここで、事前学習の段階でイベントを学習できるような対比学習フレームワークを提案。テキストから既存のツールを用いてイベントの構造知識を抽出し、Prompts構造を用いて対比学習のためのネガティブサンプルを作成し学習に用いた。

新規性

まず、Vision-Language事前学習で、物体やEntitiesレベルのみならず、EventやArgument Structureレベルの学習も行うことを提案。また、大規模Eventアノテーションつきの新規データセットを提案。また、PromptsとContrastive Learningを結合させた新たなEvent Structure学習フレームワークも提案。

結果

Multimedia Event Extractionにおいて、提案のZero-shot CLIP-EventがSupervised学習手法よりも高い性能を実現できた。また、提案の事前学習を用いて、Visual Commonsense ReasoningのZero-shot設定でも性能向上を達成した。

その他（なぜ通ったか？等）

Eventレベルの事前学習という概念が面白い。

このページで利用されている画像は論文から引用しています．