2018 年 12月 17 日随笔档案 - 开拓者亮仔

2018年12月17日

摘要：这个案例是一个新闻标题分类的案例，NLPCC 2017 Shared Task也有一个类似的案例。因此我们先拿这个下手了。整个过程概括起来分为以下几步：接下来我们对这4个部分的代码进行详细的讲解。 2.1 数据采集从上面的代码中，我们可以看到获取数据很简单：这里最重要的就是这个fetch_20 阅读全文

posted @ 2018-12-17 19:24 开拓者亮仔阅读(436) 评论(0) 推荐(0) 编辑

Python中的TfidfVectorizer参数解析

摘要： vectorizer = CountVectorizer() #构建一个计算词频（TF）的玩意儿，当然这里面不足是可以做这些transformer = TfidfTransformer() #构建一个计算TF-IDF的玩意儿tfidf = transformer.fit_transform(vect 阅读全文

posted @ 2018-12-17 18:34 开拓者亮仔阅读(6961) 评论(0) 推荐(1) 编辑

Newsgroups数据集介绍

摘要：源自如http://qwone.com/~jason/20Newsgroups/。 20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档，均匀分为20个不同主题的新闻组集合。一些新闻组的主题特别相似(e.g. comp 阅读全文

posted @ 2018-12-17 14:29 开拓者亮仔阅读(1093) 评论(0) 推荐(0) 编辑

开拓者亮仔

公告