- …
- …
#439
summarized by : Naoto Shirai
新規性
シングルストリームモデルのような高パフォーマンスの実現と2ストリームモデルの推論効率という利点を維持した2ストリームVLPモデル(COTS)を提案。パフォーマンス向上のためにインスタンスレベルだけではなく、トークンレベル、タスクレベルで画像とテキストの相互関係を強化している。また、ノイズの多い画像とテキストのペアを適応的にフィルタリングする手法を提案している。
結果
COTSは他の2ストリーム方式の中で最高のパフォーマンスを達成し、最新のシングルストリーム方式と同等のパフォーマンス(ただし、推論では10,800倍高速)を実現した。また、COTSはテキストからビデオへの検索にも適用可能である。
その他(なぜ通ったか?等)
- …
- …