SemAug: Semantically Meaningful Image Augmentations for Object Detection through Language Grounding

#253

summarized by : Yuto Shinahara

Morgan Heisler; Amin Banitalebi-Dehkordi; Yong Zhang

どんな論文か？

新しい画像のAugmentation手法を提案。具体的には、画像のコンテキストを読み取り（セマンティックセグメンテーション + Word Embedding）、類似性の高いオブジェクトを画像内の適切な位置に配置する。これによって、従来の回転や切り抜きといった幾何学的な変換、および従来の画像内にオブジェクトを配置する手法と比較して、効果的なAugmentationが実現可能。

新規性

①画像内の「どこ」に「何」を配置すれば効果的なAugmentationになるかを自動的に算出する手法を提案し、物体検出ベンチマークを用いて手法の優位性を実証した。②データセットに依存せず適用可能。③既存のモデルや学習パイプラインに容易に導入可能（画像のコンテキストを読み取るためのモデルは追加学習が不要なため）

結果

COCP, InstaBoost, ContextDA 等のSOTAを達成しているcut-pasteベースのAugmentation手法適用時と、提案手法適用時のセグメンテーション精度の比較を行い、提案手法の優位性を確認。またCOCOデータセットを用いて、提案手法有無による物体検出精度の比較を行い、ラベルが十分に付与されていないデータセットに対しても提案手法が有効であることを確認。

その他（なぜ通ったか？等）

（感想）目指しているゴール自体は確実に広いニーズがありそうで、本論文で提案していることもそこまで複雑ではないので、類似したアプローチの研究成果がすでに世に出ているのでは？と思ったが、意外とないものなんですね

このページで利用されている画像は論文から引用しています．