summarized by : Keisuke Kamahori
Youngjae Yu, Jongseok Kim, Heeseung Yun, Jiwan Chung, Gunhee Kim
映画やドラマの映像とそれを説明するテキストから、人物を同定するモデル(CiSIN)の提案。
映像とテキストの間での人物の対応付け、映像中の人物の識別、テキスト中の人物の識別の3つを合わせて行った。
様々なカメラワークがあるため、映像に対しては動き・顔・体の情報を別々に認識した。
コンペ(Large Scale Movie Description Challenge 2019)で1位を獲得。M-VAD データセットで SOTA を達成。
https://github.com/yj-yu/CiSIN/