Assaf Arbelle, Sivan Doveh, Amit Alfassy, Joseph Shtok, Guy Lev, Eli Schwartz, Hilde Kuehne, Hila Barak Levi, Prasanna Sattigeri, Rameswar Panda, Chun-Fu (Richard) Chen, Alex Bronstein, Kate Saenko, Shimon Ullman, Raja Giryes, Rogerio Feris, Leonid Karlinsky
弱教師ありの領域提案なしのVisual Groundingの行うGrounding by Separation(GbS)を提案。
従来の検出結果から最もテキストが表現しているものと近いものを選択するという検出器ベースによる問題点を解決した。
検出器を完全に排除した点。二枚の画像をマスクを使ってブレンドして、テキスト情報から対応するブレンドマスクを推論するという問題設定に落とし込んだ。
弱教師のSoTAを10%改善し、検出器ベースを(それと組み合わせることで)SoTAを9%改善した。