#354
summarized by : Shintaro Yamamoto
General Multi-Label Image Classification With Transformers

どんな論文か?

複数のラベルを出力するmulti-label image classificationに関する研究.ラベルの共起性などの関係を考慮するために,TransformerベースのモデルであるClassification Transformer(C-Tran)を提案した.
placeholder

新規性

C-Tranには,ResNetから得た画像特徴量とラベルがpositiveかnegativeかの一覧を入力する.学習時には,BERTの要領でラベルの一部をマスクして予測するタスクを学習.テスト時には,全てのラベルをマスクすることで各ラベルの確立を予測.また,ヒントとして一部の正解ラベルを与えるという使い方も可能.

結果

COCO-80, VG-500, COCO-1000, NEWS-500, CUB, CUB-312の6種類のデータセットで評価し,state-of-the-artを達成した.

その他(なぜ通ったか?等)

プロジェクト:https://github.com/QData/C-Tran Related Workが最後に来るあたり書き方がNLPっぽい.手法もBERTの学習を参考にしている.