summarized by : Tenga Wakamiya
Niluthpol Chowdhury Mithun, Sujoy Paul, Amit K. Roy-Chowdhury
動画像とキャプショニングからセグメントを推定するタスク
動画像の説明文から関連するセグメントの推定をするために視覚的かつ意味的な埋め込みに基づく共同フレームワークを提案した
テキストガイドアテンション(TGA)を使用して,動画のフレームと文章の説明の間の潜在的な配置を利用することで改善した
実験結果として,弱教師ありなものを使っているのに対して,教師ありなものと同等の性能を発揮した
弱教師ありがHotなタスクであるため
教師ありのものと同等な性能を発揮したため