summarized by : 日坂 幸次
TWAG: A Topic-Guided Wikipedia Abstract Generator

概要

ウィキペディアの概要生成は、ウェブソースからウィキペディアの概要を抽出することを目的としており、マルチドキュメントサマライゼーション技術を採用することで大きな成功を収めている。 しかし、これまでの研究では、一般的に抄録をプレーンテキストとして捉え、抄録があるエンティティの説明であり、異なるトピックに分解できるという事実を無視していた。 抄録は、あるエンティティの説明であり、異なるトピックに分解できるという事実を無視している。

新規性

本論文では、話題性のある情報を用いて概要生成をガイドする2段階のモデルTWAGを提案する。 まず、既存のWikipedia記事で学習した分類器を用いて各入力段落のトピックを検出し、入力文書を異なるトピックに分割します。 次に、各抽象文のトピック分布を予測し、Pointer-Generatorネットワークを用いてトピックを意識した表現から文をデコードします。

結果

WikiCatSumデータセットを用いて我々のモデルを評価した結果、TWAGは既存の様々なベースラインよりも優れており、包括的なアブストラクトを生成することができることが分かりました。我々のコードとデータセットは https://github.com/THU-KEG/TWAG からアクセスできます。