- …
- …
#329
summarized by : Tomoki Tsujimura
どんな論文か?
画像ペア間のレアイベント検出をDisentanglement learningのアプローチで取り組んでいる。このタスクでは正例が負例に比べて少ないクラス不均衡の設定になりやすく、素直な分類問題として解くのは難しい。そこでまず大量にある負例だけを用いて、レアイベントの発生していないペア入力間では不変となるような特徴量をVAEで学習し、その後その特徴量を入力とした分類器をファインチューニングする。
新規性
既存研究では無視されていたクラス不均衡な設定に取り組んだ。VAEの出力する特徴量を、レアイベント以外では不変になるようなcommon特徴量と、(レアでない)trivialなイベントに対しても鋭敏なspecific特徴量に分離する学習を負例のみから行う方法を提案した。新しい大規模change detectionデータセットを作成した。
結果
拡張されたMNISTを用いたペア画像の数字の一致判定タスクで、正例の割合を制限するほど提案手法が既存手法に勝る。in-the-wildなデータセットではデータセット・評価指標ごとで勝敗が分かれる。MNISTでは狙い通りcommon特徴量が数字に、specific特徴量が数字以外の情報に対応し、それの可視化もt-SNEでできたが、それ以外のデータセットではそこまではっきりと可視化は出来なかった。
その他(なぜ通ったか?等)
MNISTにおいて2種の特徴量についてそれぞれ個別に線形補完して画像を再構成したときの出力例は狙い通りになっており、負例のみからでもdisentanglement learningが出来ていることの説得になっている。また、ペア入力間での特徴量の差異をマハラノビス距離による損失関数で表現しており、L2距離などを使った場合との比較など損失関数の設計に関する根拠も示されている。
- …
- …