summarized by : Shion Honda
Large Dataset and Language Model Fun-Tuning for Humor Recognition

概要

Shion Honda
placeholder

新規性

うち半分にジョークを含む3万のロシア語の短文からなるデータセットを作成した。3種のデータセットから人手ラベリングにより2000程度の信頼性の高いデータを作成。これでULMFiTをファインチューニングしたULMFunでラベルを3万まで増やした。

結果

ジョークのデータセットとしてはすべての言語において最大規模のデータセット。