summarized by : Keisuke Kamahori
            
   
          Youngjae Yu, Jongseok Kim, Heeseung Yun, Jiwan Chung, Gunhee Kim
      
 映画やドラマの映像とそれを説明するテキストから、人物を同定するモデル(CiSIN)の提案。
  映像とテキストの間での人物の対応付け、映像中の人物の識別、テキスト中の人物の識別の3つを合わせて行った。
様々なカメラワークがあるため、映像に対しては動き・顔・体の情報を別々に認識した。
  コンペ(Large Scale Movie Description Challenge 2019)で1位を獲得。M-VAD データセットで SOTA を達成。
  https://github.com/yj-yu/CiSIN/