- …
- …
#155
summarized by : Shingo Nakazawa
どんな論文か?
図や表をコンピュータビジョンで解析しQ&Aを行う Chart Question Answering (CQA) 分野の仕事。本論文はコンピュータビジョンと自然言語処理のアプローチ、分類タスクと回帰タスクのアプローチを組み合わせた Classification Regression Chart Transformer (CRCT) という手法を提案し、高い精度を達成した。
新規性
1. グラフ内の全てのテキスト要素を処理し、全てのテキスト要素と視覚要素間の関連付けを可能に。2. 一般的な文字列マッチングをやめ事前学習済BERTを用いることで高い汎化性を達成。3. 視覚とテキストの両ドメインからのインプットを融合したしたチャート要素表現学習を導入 (co-attention/co-transformer)。4. 分類と回帰を一つのモデルに統合したハイブリッド予測器を提案。
結果
PlotQAデータセットにおいて,従来手法を大きく上回り、10%の学習データで従来手法と同程度の精度を達成。加えて、説明可能性を可視化し、提案手法の強みと限界を議論している。FigureQAデータセットでもSOTA (PReFIL. Kafle et al., WACV 2020) に匹敵。
その他(なぜ通ったか?等)
CQA独特の難しさとして、図表上の些細な違いが重要であることや、回答が分類ではなく回帰タスクになりうることなどがある。グラフの色に影響されたり非線形の軸がうまく読めなかったりと課題は残っているが、データを理解しやすい視覚的な形にまとめ伝えるのに強力な図表を読み取り回答する提案手法および関連領域は実用上の重要性が非常に高いと考えられる。
- …
- …