Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

#879

summarized by : kota yoshida

Yale Song, Mohammad Soleymani

どんな論文か？

マルチヘッドのself-attentionと残差学習により，コンテキスト全体をローカルにガイドされた関数と組み合わせることで複雑なインスタンスの表現を計算するネットワークを提案．ソーシャルメディアから収集された，MRWと呼ばれる50Kのvideo-sentenceペアの新しいデータセットを公開．

新規性

videoとsentenceには部分的な一致があると仮定し，最も関連のある組み合わせ間の距離を測定するPolysemous Instance Embedding Network (PIE-Net)を提案． 2つのPIE-Netsを結び付け，複数のインスタンスを学習するフレームワークPolysemous Visual-Semantic Embedding (PVSE)によって学習．

結果

MS-COCO、TGIF、MRWデータセットを使って、画像テキストとビデオテキストの検索の両方に対する提案するアプローチの有効性を実証．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．