#35
summarized by : Keisuke Kamahori
Character Grounding and Re-Identification in Story of Videos and Text Descriptions

どんな論文か?

映画やドラマの映像とそれを説明するテキストから、人物を同定するモデル(CiSIN)の提案。
placeholder

新規性

映像とテキストの間での人物の対応付け、映像中の人物の識別、テキスト中の人物の識別の3つを合わせて行った。 様々なカメラワークがあるため、映像に対しては動き・顔・体の情報を別々に認識した。

結果

コンペ(Large Scale Movie Description Challenge 2019)で1位を獲得。M-VAD データセットで SOTA を達成。

その他(なぜ通ったか?等)

https://github.com/yj-yu/CiSIN/