- …
- …
#354
summarized by : Shintaro Yamamoto
どんな論文か?
複数のラベルを出力するmulti-label image classificationに関する研究.ラベルの共起性などの関係を考慮するために,TransformerベースのモデルであるClassification Transformer(C-Tran)を提案した.
新規性
C-Tranには,ResNetから得た画像特徴量とラベルがpositiveかnegativeかの一覧を入力する.学習時には,BERTの要領でラベルの一部をマスクして予測するタスクを学習.テスト時には,全てのラベルをマスクすることで各ラベルの確立を予測.また,ヒントとして一部の正解ラベルを与えるという使い方も可能.
結果
COCO-80, VG-500, COCO-1000, NEWS-500, CUB, CUB-312の6種類のデータセットで評価し,state-of-the-artを達成した.
その他(なぜ通ったか?等)
プロジェクト:https://github.com/QData/C-Tran
Related Workが最後に来るあたり書き方がNLPっぽい.手法もBERTの学習を参考にしている.
- …
- …