- …
- …
#35
summarized by : yasud
新規性
既存研究の多くは単一のモーダルを別々で学習したり、追加の前処理をしたりしている+階層的なLSTMによる処理がなされているが、TransformerをベースとしてEnd2Endで学習を行なっている。また、Recipe1Mはマルチモーダルデータだが、その中の33%にしか画像が含まれているものがないのを無視(除去)している研究が多いが、残りのテキストのみのデータからも学習を行なっている。
結果
Recipe1Mでmedian rank(medR)とRecall(R1, R5, R10)で評価しており、LSTMベースの構造に比べてSoTA。また、画像のエンコードにはViTを使った場合が最も良かった。
その他(なぜ通ったか?等)
全体的に、タスクを分解すれば先行研究が多いようだったが、それらをまとめて簡潔な構造にした上で、新たなベースラインとしてSoTAを達成している点が評価されていそう
- …
- …