#243
summarized by : QIUYUE
Show, Deconfound and Tell: Image Captioning With Causal Inference

どんな論文か?

既存のImage Captioning手法は画像の中の物体同士間の分布関係(Visual Confounder)と言語側の単語同士間の分布関係(Linguistic Confounder)を学習してしまう傾向がある。上記のバイアスを学習しないように、物体同士間の分布の影響を除く検出器と単語同士間の分布の影響を除くInterventialデコーダーをCaptioningモデルに導入。
placeholder

新規性

Confoundersが特にVandLのモデル性能に影響を及ぼしている。しかしながら、既存手法はこれらのバイアスを学習してしまう傾向にあった。この研究で、Causal InductionをImage Captioningモデルに導入し、同時に画像側のConfounderと言語側のConfounderの影響を緩和した。また、提案手法が構造上シンプルになり、他の既存手法へ導入するなども可能になる。

結果

提案の手法はMSCOCOのKarpathy Split(Image Captioningデータセット)でSOTAな性能を得られた。定性的な結果により、提案手法が有効的にConfounderの影響を緩和し、画像のコンテキストをベースにCaptioning生成できている。

その他(なぜ通ったか?等)

Causal InductionをImage Captioningに導入した新しい研究。Causal InductionをCNN/Transformerに導入する手法はシンプルで性能が良いものが多い印象。