摘要: 原文链接:https://www.dataquest.io/blog/settingwithcopywarning/ 原文标题:Understanding SettingwithCopyWarning in pandas 原文发布时间:5 JULY 2017(需要注意时效性,文中有一些方法已经弃用, 阅读全文
posted @ 2019-01-30 19:51 开拓者亮仔 阅读(1776) 评论(0) 推荐(0) 编辑
摘要: Pandas可根据列名称选取,还可以根据列所在的position(数字,在第几行第几列,注意pandas行列的position是从0开始)选取。相关函数如下: 1)loc,基于列label,可选取特定行(根据行index); 2)iloc,基于行/列的position; 3)at,根据指定行inde 阅读全文
posted @ 2019-01-30 11:16 开拓者亮仔 阅读(8293) 评论(0) 推荐(0) 编辑
摘要: 基本格式:dataframe[列名] 1.取多列 列名要用中括号括起来,所以下述命令 dataframe[['P4_profit_rate','P3PS','P3NS']] 没问题,返回pandas.core.frame.DataFrame类型的值 dataframe['P4_profit_rate 阅读全文
posted @ 2019-01-29 10:53 开拓者亮仔 阅读(3318) 评论(0) 推荐(0) 编辑
摘要: 我的Anaconda安装目录为D:\Anaconda3\ 在cmd中执行 会出现 随后输入pip 会出现等 随后输入 安装完成 阅读全文
posted @ 2019-01-28 14:35 开拓者亮仔 阅读(3250) 评论(0) 推荐(1) 编辑
摘要: 一、什么是gensimgensim是一个python的科学库,gensim包含了TF-IDF、随机投影、word2vec和document2vec算法的实现,分层Dirchlet过程(HDP),潜在语义分析(LSA)和潜在Dirichlet分配(LDA),包括分布式并行版本。主要是用来主题建模、文档 阅读全文
posted @ 2018-12-21 10:39 开拓者亮仔 阅读(3476) 评论(0) 推荐(0) 编辑
摘要: 0 前言 印象中,最開始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是由于这篇文档的前序铺垫太长(如今才意识到这些“铺垫”都是深刻理解LDA 的基础,但假设没有人帮助刚開始学习的人提纲挈领、把握主次 阅读全文
posted @ 2018-12-18 15:30 开拓者亮仔 阅读(1514) 评论(0) 推荐(0) 编辑
摘要: 这个案例是一个新闻标题分类的案例,NLPCC 2017 Shared Task也有一个类似的案例。因此我们先拿这个下手了。整个过程概括起来分为以下几步: 接下来我们对这4个部分的代码进行详细的讲解。 2.1 数据采集 从上面的代码中,我们可以看到获取数据很简单: 这里最重要的就是这个fetch_20 阅读全文
posted @ 2018-12-17 19:24 开拓者亮仔 阅读(436) 评论(0) 推荐(0) 编辑
摘要: vectorizer = CountVectorizer() #构建一个计算词频(TF)的玩意儿,当然这里面不足是可以做这些transformer = TfidfTransformer() #构建一个计算TF-IDF的玩意儿tfidf = transformer.fit_transform(vect 阅读全文
posted @ 2018-12-17 18:34 开拓者亮仔 阅读(6961) 评论(0) 推荐(1) 编辑
摘要: 源自如http://qwone.com/~jason/20Newsgroups/。 20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。一些新闻组的主题特别相似(e.g. comp 阅读全文
posted @ 2018-12-17 14:29 开拓者亮仔 阅读(1093) 评论(0) 推荐(0) 编辑
摘要: 1、手写最基本读取f = open('8.iris.data','r',encoding='utf-8')x = []y = []for d in f: d = d.strip() if not d: continue d = d.split(',') x.append(list(map(float 阅读全文
posted @ 2018-12-13 21:02 开拓者亮仔 阅读(1296) 评论(0) 推荐(0) 编辑