#3
summarized by : Shion Honda
Large Dataset and Language Model Fun-Tuning for Humor Recognition

概要

うち半分にジョークを含む3万のロシア語の短文からなるデータセットを作成した。3種のデータセットから人手ラベリングにより2000程度の信頼性の高いデータを作成。これでULMFiTをファインチューニングしたULMFunでラベルを3万まで増やした。
placeholder

新規性

ジョークのデータセットとしてはすべての言語において最大規模のデータセット。

結果

TF-IDF+ SVMよりもF1などで上回るモデルを作った。