#35
summarized by : yasud
Revamping Cross-Modal Recipe Retrieval With Hierarchical Transformers and Self-Supervised Learning

どんな論文か?

マルチモーダルなレシピ検索のためのモデルを提案している
placeholder

新規性

既存研究の多くは単一のモーダルを別々で学習したり、追加の前処理をしたりしている+階層的なLSTMによる処理がなされているが、TransformerをベースとしてEnd2Endで学習を行なっている。また、Recipe1Mはマルチモーダルデータだが、その中の33%にしか画像が含まれているものがないのを無視(除去)している研究が多いが、残りのテキストのみのデータからも学習を行なっている。

結果

Recipe1Mでmedian rank(medR)とRecall(R1, R5, R10)で評価しており、LSTMベースの構造に比べてSoTA。また、画像のエンコードにはViTを使った場合が最も良かった。

その他(なぜ通ったか?等)

全体的に、タスクを分解すれば先行研究が多いようだったが、それらをまとめて簡潔な構造にした上で、新たなベースラインとしてSoTAを達成している点が評価されていそう