#128
summarized by : 古澤嘉久
Making Heads or Tails: Towards Semantically Consistent Visual Counterfactuals

どんな論文か?

GANなどの生成モデルを使用するのではなく、画像ごとにグリッドを分割して、query画像のどの部分をtarget画像に置き換えると予測確率が上がるかを予測する方法を提案。
placeholder

新規性

2つのモデルを使用。1つ目はクラス分類モデルを用いて、これをもとにどの領域を変化させると、どれくらい予測確率に変化が生じるかを計測する。2つ目はAuxiliaryモデルとして、自己教師あり学習で学習させたモデルであり、位置情報と意味的な近さを計測する 2つのモデルの特徴量間の類似度を計算する。計算コスト削減のために最初にAuxiliaryモデルで類似度が高い上位k%候補に対して計算する方法を提案。

結果

定量評価としては、Near-KP(選択した領域がキーポイントを含むかどうか)、Same-KP(同じキーポイントを予測する回数)、#Edits(ターゲットのクラスを予測するまでの試行回数)を指標に採用。いずれの指標でもSOTA、もしくは肉薄する結果。 定性評価としては、そもそも画像の特徴を知らない人に、特徴付きのデータを渡して学習してもらい、再度テストを行った時にどれくらい正解率が上がるかを評価。

その他(なぜ通ったか?等)

評価の方法がユニークだった。定性評価の部分の画像の特徴を知らない人へ見せたときの正答率を比較するのは個人的に面白かった。