Character Grounding and Re-Identification in Story of Videos and Text Descriptions

#35

summarized by : Keisuke Kamahori

Youngjae Yu, Jongseok Kim, Heeseung Yun, Jiwan Chung, Gunhee Kim

映画やドラマの映像とそれを説明するテキストから、人物を同定するモデル(CiSIN)の提案。

映像とテキストの間での人物の対応付け、映像中の人物の識別、テキスト中の人物の識別の3つを合わせて行った。様々なカメラワークがあるため、映像に対しては動き・顔・体の情報を別々に認識した。

コンペ(Large Scale Movie Description Challenge 2019)で1位を獲得。M-VAD データセットで SOTA を達成。

https://github.com/yj-yu/CiSIN/

このページで利用されている画像は論文から引用しています．