summarized by : taichi murayama
An Online Semantic-enhanced Dirichlet Model for Short Text Stream Clustering

概要

短いテキストストリーム (twitterの投稿など)のクラスタリングを行うためのトピックモデル OSDM (Online Semantic-enhanced Dirichlet Model)を提案
placeholder

新規性

オンラインテキストストリームはクラスタ数が動的に変化していくという特徴が存在するが,既存のクラスタリング研究ではバッチサイズやクラスタ数を指定して学習を行ってきたため対処できなかった 本研究では,Pory urn schemeを導入し,モデルのパラメータ値を入力によって変更していくことで,動的なクラスタリングが可能となった 更に,単語の共起頻度による重み付けをモデルへ導入し,短文の意味情報を扱おうと試みる

結果

3つのデータセット2つの人工的に改良したデータセットで比較モデルに対し,高い精度 (Homogenety, mutual information, accuracyなど)となっている