Cross-Modality Personalization for Retrieval

#16

summarized by : maokura

Nils Murrugarra-Llerena, Adriana Kovashka

どんな論文か？

画像へのキャプショニングはそれをする人の性格や，画像の中で注目する点によって異なってくる．本研究ではそれらの要素を互いに検索し合うようなタスクの提案とデータセット，モデルの設計を行った．同じ画像に結びつく要素を元にした損失(Content)と同じ人に基づくアイテム(Style)を元にした損失を設計し，それがベースラインのモデルに勝ることを確認した．

新規性

画像へのキャプショニング，アノテータの性格，注目点を互いに検索するというタスクの提案と，データセットの設計．性格を元にした注目点推定や，注目点を基にしたキャプショニングは存在したが，それらを同一に行うなどの点で新しい．

結果

ContentとStyleを個別に用いたもの，合わせて用いたものを提案モデルとして，クロスモーダルエンベディングのSoTAであるVSE++，性格を考慮して画像のタグを予測するVEITとの比較を行った．性能比較のためのタスクとしては，設計したデータセットに対して，各モダリティ間での検索性能をtop-nではかることをした．結果としてほとんどのタスクで提案手法が勝った．

その他（なぜ通ったか？等）

Facebookなどでのユーザ性質ごとに違うキャプションを与えるなどの利用を想定しているそう．各モダリティ間の検索で，Content，Styleどれが重要かなども検証している．

このページで利用されている画像は論文から引用しています．