Towards Global Explanations of Convolutional Neural Networks With Concept Attribution

#550

summarized by : Hirokatsu Kataoka

Weibin Wu, Yuxin Su, Xixian Chen, Shenglin Zhao, Irwin King, Michael R. Lyu, Yu-Wing Tai

カテゴリに対する学習サンプルの全体的特徴を解析することにより説明性を与える研究である。Attacking for Interpretability（AfI; フローは図中上側）という特徴を遮蔽して考えた時の識別結果を見る、可視化してどの属性が識別に重要かを判断する枠組みを提案した。

論文中では（AfIによる）Inportance Scoreという指標を提案していて、識別カテゴリに寄与している属性を数値的に解析できるようにした。例として"Ping-pong Ball"というカテゴリには"Asian"という属性が寄与している、などである。結果の一例は図中下側に示す通り。

画像攻撃した結果、属性推定に対する評価においてもベースライン（Gradient-based@画像攻撃、TCAV@属性推定）より性能向上が見られた。

このページで利用されている画像は論文から引用しています．