摘要: 这个案例是一个新闻标题分类的案例,NLPCC 2017 Shared Task也有一个类似的案例。因此我们先拿这个下手了。整个过程概括起来分为以下几步: 接下来我们对这4个部分的代码进行详细的讲解。 2.1 数据采集 从上面的代码中,我们可以看到获取数据很简单: 这里最重要的就是这个fetch_20 阅读全文
posted @ 2018-12-17 19:24 开拓者亮仔 阅读(436) 评论(0) 推荐(0) 编辑
摘要: vectorizer = CountVectorizer() #构建一个计算词频(TF)的玩意儿,当然这里面不足是可以做这些transformer = TfidfTransformer() #构建一个计算TF-IDF的玩意儿tfidf = transformer.fit_transform(vect 阅读全文
posted @ 2018-12-17 18:34 开拓者亮仔 阅读(6961) 评论(0) 推荐(1) 编辑
摘要: 源自如http://qwone.com/~jason/20Newsgroups/。 20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。一些新闻组的主题特别相似(e.g. comp 阅读全文
posted @ 2018-12-17 14:29 开拓者亮仔 阅读(1093) 评论(0) 推荐(0) 编辑