#380
summarized by : Haruhi Shida
UIA-ViT: Unsupervised Inconsistency-Aware Method Based on Vision Transformer for Face Forgery Detection

どんな論文か?

フレーム内不一致は顔面偽造検出の一般化において有効であることが証明されている.しかしこれらの矛盾に着目して学習するためにはピクセルレベルの偽造位置の注釈が必要である.このような注釈を取得することは容易でない.そこで本研究では,ViTに基づいたビデオレベルのラベルのみを利用しピクセルレベルの注釈なしに不整合を認識する特徴を学習することができる教師なし不整合性認識手法(UIA-ViT)を提案した.
placeholder

新規性

ViTに基づく教師なしパッチ整合性学習戦略を提案し,ピクセルレベルの注釈を必要としないフレーム内不整合に焦点を当てた顔面偽造検出を可能にした.これは追加のオーバーヘッドなしに検出の汎化性を大きく向上させるものである.

結果

提案手法の優れた汎化能力と教師なし学習戦略の有効性を広範な実験により実証した.(添付画像)

その他(なぜ通ったか?等)