05 2019 档案
摘要:单层索引index中,我们可以轻松通过df.loc[index]来获取某一行数据,多重索引是怎么样来实现的呢,下面进行介绍。 1、行多层索引 1 import pandas as pd 2 3 df = pd.DataFrame({'class':['A','A','A','B','B','B','
阅读全文
摘要:在实际分析中,经常遇到连续值需要离散化,或者离散值需要哑元化的问题,下面将分别举例说明。 1、连续指标离散化 可以根据自己的需求划分不同的区间,然后使用pandas中cut()、qcut()函数来完成连续变量离散化操作。 2、离散指标哑元化 分类变量哑元化是指将分类变量转换成“哑变量矩阵”(dumm
阅读全文
摘要:集合是一种组合型的数据类型,分为可变的set和不可变的frozenset。 1、可变集合set 集合set是一种无序的、唯一的的元素集,与数学中集合的概念类似,可对其进行交、并、差、补等逻辑运算。不支持索引、切片等序列操作,但仍支持成员关系运算符in-not in、推导式等操作。在特定的场合中可以体
阅读全文
摘要:第三章《数据分析实战》--第三章 python实现主要利用分组统计分析了企业某游戏的销售额下降的主要原因。 这一章主要利用交叉列表(或叫作透视表)的方式来剖析企业用户数量减少的原因。假设是因为某个群体的用户锐减导致当月用户比上个月的用户数少,因此主要利用python中的pandas、matplotl
阅读全文
摘要:在商业数据分析流程中主要介绍分析流程以及每个过程的具体含义。这一章主要利用合并汇总来剖析企业销售额下降的原因。主要利用python中的pandas、matplotlib模块完成书中分析。 1、读取数据、合并数据 可以采用如下方式先设置工作路径至数据表放在位置,然后利用 os.getcwd() 来查看
阅读全文
摘要:对pandas中的DataFrame进行条件筛选,即筛选出符合条件的数据条;这里经常会遇到以下几种情况,下面举例说明: (1)找出df中A列值为100的所有数据 这里也可以是小于(<)、大于(>)、小于等于(<=)、大于等于(>=)、不等于(!=)等情况。 (2)找出df中A列值为100、200、3
阅读全文
摘要:数据分析大体上的分析结构如下所示(分析流程图如下所示): 首先,需要对现状和预期有一个很好的把握。其次,弄清现状和预期之间的差距,并调查导致差距产生的关键因素,即发现问题。这样的因素可能很多,所以要收集数据和加工,并在此基础上进行数据分析。主要是挖掘出导致此问题发生的关键性因素,然后综合考虑时间成本
阅读全文