文本快速分类利器fasttext使用心得(踩坑之路)

fasttext是文本分类的一大利器,优点:快,嗷嗷快;缺点:暂未发现。但是我在使用其做文本分类时候还是遇到了挺多坑,今天先总结一个:

网上有人说设置训练参数的时候,ngrams设置大于2可以提高模型的精确度,打算试试,然而设置之后系统直接显示:

floating point exception(core dumped)

解决方案,网上csdn上一堆,看不懂,直接google了,有人提出了下述解决方案,其实就是训练模型时候多写个bucket参数,然后设置为2000000,就行了,这里我rpoch和lr都没有写,按照系统默认了,然后就训练ok了。

After experimenting with arguments I've found that specifying number of bucket explicitly, default is 2000000, prevents the error.

classifier = fasttext.supervised('train.txt',
                                 'model',
                                 label_prefix='__label__',
                                 epoch=25,
                                 lr=0.1,
                                 word_ngrams=2,
                                 bucket= 2000000)

posted @ 2018-11-19 14:59  zxyza  阅读(6237)  评论(0编辑  收藏  举报