- …
- …
#17 #acl2020
summarized by : taichi murayama
概要
短いテキストストリーム (twitterの投稿など)のクラスタリングを行うためのトピックモデル OSDM (Online Semantic-enhanced Dirichlet Model)を提案
新規性
オンラインテキストストリームはクラスタ数が動的に変化していくという特徴が存在するが,既存のクラスタリング研究ではバッチサイズやクラスタ数を指定して学習を行ってきたため対処できなかった
本研究では,Pory urn schemeを導入し,モデルのパラメータ値を入力によって変更していくことで,動的なクラスタリングが可能となった
更に,単語の共起頻度による重み付けをモデルへ導入し,短文の意味情報を扱おうと試みる
結果
3つのデータセット2つの人工的に改良したデータセットで比較モデルに対し,高い精度 (Homogenety, mutual information, accuracyなど)となっている
- …
- …