Large Dataset and Language Model Fun-Tuning for Humor Recognition

summarized by : Shion Honda

Vladislav Blinov, Valeria Bolotova-Baranova, Pavel Braslavski

Shion Honda

うち半分にジョークを含む3万のロシア語の短文からなるデータセットを作成した。3種のデータセットから人手ラベリングにより2000程度の信頼性の高いデータを作成。これでULMFiTをファインチューニングしたULMFunでラベルを3万まで増やした。

ジョークのデータセットとしてはすべての言語において最大規模のデータセット。

このページで利用されている画像は論文から引用しています．