摘要: 一、简介 此文是对利用jieba,word2vec,LR进行搜狐新闻文本分类的准确性的提升,数据集和分词过程一样,这里就不在叙述,读者可参考前面的处理过程 经过jieba分词,产生24000条分词结果(sohu_train.txt有24000行数据,每行对应一个分词结果) 1)TfidfVector 阅读全文
posted @ 2018-12-29 11:24 1直在路上1 阅读(4962) 评论(2) 推荐(1) 编辑
摘要: 一、简介 1)jieba 中文叫做结巴,是一款中文分词工具,https://github.com/fxsjy/jieba 2)word2vec 单词向量化工具,https://radimrehurek.com/gensim/models/word2vec.html 3)LR LogisticRegr 阅读全文
posted @ 2018-12-29 11:21 1直在路上1 阅读(14337) 评论(6) 推荐(3) 编辑