#879
summarized by : kota yoshida
Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

どんな論文か?

マルチヘッドのself-attentionと残差学習により,コンテキスト全体をローカルにガイドされた関数と組み合わせることで複雑なインスタンスの表現を計算するネットワークを提案. ソーシャルメディアから収集された,MRWと呼ばれる50Kのvideo-sentenceペアの新しいデータセットを公開.
placeholder

新規性

videoとsentenceには部分的な一致があると仮定し,最も関連のある組み合わせ間の距離を測定するPolysemous Instance Embedding Network (PIE-Net)を提案. 2つのPIE-Netsを結び付け,複数のインスタンスを学習するフレームワークPolysemous Visual-Semantic Embedding (PVSE)によって学習.

結果

MS-COCO、TGIF、MRWデータセットを使って、画像テキストとビデオテキストの検索の両方に対する提案するアプローチの有効性を実証.

その他(なぜ通ったか?等)