summarized by : Takuma Yagi
Jianfeng Dong, Xirong Li, Chaoxi Xu, Shouling Ji, Yuan He, Gang Yang, Xun Wang
自然文からのzero-example映像検索タスクにおける映像と文章のdual encoding手法の提案。
従来手法が映像をコンセプトベースの表現に落としていたのに対しCNNベースの表現をそのまま使用する方が良いことを実証。
MSR-VTT, TRECVIDおよびAd-hoc Video Search Showで最高性能。
結果が良いだけで目新しさはない。