A Data-Centric Approach for Improving Ambiguous Labels with Combined Semi-Supervised Classification and Clustering

#71

summarized by : anonymous

Lars Schmarje; Monty Santarossa; Simon-Martin Schröder; Claudius Zelenka; Rainer Kiko; Jenny Stracke; Nina Volkmann; Reinhard Koch

どんな論文か？

深層学習の世界で，新規アーキテクチャや損失関数の提案には高品質なデータセットを用いることが重要．しかし実世界においてこのようなデータセットを作成する際に，複数のアノテータの主観によってもたらされるデータラベルの曖昧さが問題となることがある．

新規性

アノテータはデータセット作成時において，データの解像度の悪さや品質の低さ等の影響を受ける可能性がある．アノテータ間でラベルが変化するような曖昧なデータと，アノテータ間でラベルが一致するような確信の持てる画像に対して，自己教師あり学習のアルゴリズムを利用して，半教師付き学習とクラスタリングで様々なデータセットに対して提案手法DC3を使って汎化性能の高い分類を行う．

結果

使用データセットはPlanktom,Turkey,Mice Bone,Cifar-10H．データセットの曖昧画像の割合を事前に知っている場合，全ての手法とデータセットの組み合わせにおいて、平均してF1-Scoreが7.6％向上し、クラスタ内距離が7.9％減少することを確認．

その他（なぜ通ったか？等）

実世界データセットにおいて，ノイズラベルや曖昧なデータを含むデータセットにおいて，データの曖昧さを考慮し，曖昧な画像に関してはクラスタリングによるクラス分類を行うという点が新しい．githubリンク https://github.com/emprime/dc3

このページで利用されている画像は論文から引用しています．