Reasoning with Multimodal Sarcastic Tweets via Modeling Cross-Modality Contrast and Semantic Association

summarized by : taichi murayama

Nan Xu, Zhixiong Zeng, Wenji Mao

Twitterの投稿が皮肉かどうかを検出するためのマルチモーダルなモデルを提案．皮肉の場合は，画像とテキストの内容がかけ離れることに着目したモデルを構築．

画像の情景の内容とテキストの情報をAttentionを用いて特徴量を獲得するためのモジュール (R-Net)と，画像とテキストの不変の特徴量を抽出することで，画像とテキスト固有の特徴を抽出するためのモジュール (D-Net)を提案し2つのモジュールを用いて投稿が皮肉かどうかを検出する．

先行研究「Multi-modal sarcasm detection in twitter with hierarchicalfusion model. 」で提案されたツイッターデータセットを用いて精度を検証．既存のモデルと比較して高い精度を達成．

このページで利用されている画像は論文から引用しています．