#61
summarized by : pshiko
What Makes Training Multi-Modal Classification Networks Hard?

どんな論文か?

multi-modal networkがuni-modal より性能が劣化するのは、Overfitのしやすさとその度合がmodal間で異なることが原因であることを実験的に明らかにし、それに対処するためmodal間のロスに対する重みを最適化する手法 `Gradient-Blending` を提案。
placeholder

新規性

1. Overfitの度合いを定量化するためのメトリクス(OGR)を提案した点 2. それを最適化し最適なmodal間のロスにかける重みの算出方法を定式化した点

結果

KineticsやMulti-Sportなど複数のデータセット/タスクで、multi-modal network + `Gradient-Blending` で, multi-modalや従来のuni-modalのsotaを超える性能を確認. またこの手法がbackboneやタスクの種類によらず一定の効果が得られることも確認した.

その他(なぜ通ったか?等)

multi-modal networkが抱える普遍的な課題設定に対して、提案したメトリクスと最適化手法に新規性があり、実際に大きな効果があることを証明したため。