随笔分类 - 数据分析
1
摘要:日期和时间函数是我们日常工作中使用频率比较高的一部分。这里需要强调的两个概念就是日期和时间,日期是指年月日,时间是指时分秒。 获取当前时刻的数据 获取当前时刻的数据就是获取程序运行的那一刻与时间相关的数据,比如,年月日、时分秒等。 获取当前时刻的日期和时间 对于获取当前时刻的日期和时间,在Excel
阅读全文
摘要:上表存储了每位同学的id、name (姓名)、class (班级)和score(成绩)四个字段。我们把上表中的数据存储在demo数据库的chapter8表中。 if()函数 对于Excel中的if()函数,读者应该都比较熟悉了,SQL中的if()函数与Excel中的原理基本一样,也是用来对某一个条件
阅读全文
摘要:上表存储了id(销售人员ID)、 name (销售人员姓名)、sales_a( a产品销量) 、sales_b ( b产品销量)、price_a ( a产品价格)和price_b ( b产品价格)六个字段。我们把上表中的数据存储在demo数据库的chapter7表中。 算术运算 算术运算就是我们所熟
阅读全文
摘要:上表存储了order_id(订单ID)date (下单日期).value(订单金额)、memberid(会员ID)、age (会员的年龄)、sex(会员的性别)和profession(所在行业信息)七个字段。我们把上表中的数据存储在demo数据库的chapter6表中。 缺失值处理 我们在数据库中存
阅读全文
摘要:我们把商标中的数据存储在demo数据库的chapter5表中。 具体如何把上表中的数据存储到demo数据库的chapter5表中呢?首先在demo数据库中新建一张名为chapter5的表,然后分别新建id、name、class、age、score列,表和列新建完成后,再将本地的CSV文件导入即可。
阅读全文
摘要:数据的获取 | 01 数据的获取 | 01 数据预处理 | 02 数据预处理 | 02 数据运算 | 03 数据运算 | 03 控制函数 | 04 控制函数 | 04 日期和时间函数 | 05 日期和时间函数 | 05 数据分组与数据透视表 | 06 窗口函数 | 07 多表连接 | 08 子查询
阅读全文
摘要:导出为.xlsx文件 设置文件导出路径 设置文件导出路径就是告诉Python要将这个文件导出到电脑的哪个文件夹里,且导出以后这个文件叫什么。通过调整参数excel_writer的值即可实现。 上面代码表示将表df导出到桌面,且导出以后的文件名为测试文档,导出以后的文档如下所示。 需要注意的是,如果同
阅读全文
摘要:表的横向拼接 表的横向拼接就是在横向将两个表依据公共列拼接在一起。 在Excel中实现横向拼接利用的是vlookup()函数,关于vlookup()函数这里就不展开了,相信大家应该都很熟悉。 在 Python 中实现横向拼接利用的 merge()方法,接下来的几节主要围绕 merge()方法展开。
阅读全文
摘要:数据分组 数据分组就是根据一个或多个键(可以是函数、数组或df列名)将数据分成若干组,然后对分组后的数据分别进行汇总计算,并将汇总计算后的结果进行合并,被用作汇总计算的函数成为聚合函数。 数据分组的具体分组流程如下图所示。 Excel 中有数据分组这个功能,但是在使用这个功能以前要先对键进行排序(你
阅读全文
摘要:获取当前时刻的时间 获取当前时刻的时间就是获取此时此刻与时间相关的数据,除了具体的年、月、日、时、分、秒,还会单独看年、月、周、日等指标。 返回当前时刻的日期和时间 返回当前时刻的日期和时间在Excel和Python中都借助函数now()实现。 在Excel中直接在单元格里输入now()函数即可,在
阅读全文
摘要:算术运算 算术运算就是基本的加减乘除,在Excel或Python中数值类型的任意两列可以直接进行加、减、乘、除运算,而且是对应元素进行加、减、乘、除运算,Excel 中的算术运算比较简单,这里就不展开了,下面主要介绍Python中的算术运算。 比较运算 比较运算和Python基础知识中讲到的比较运算
阅读全文
摘要:数值替换 一对一替换 一对一替换是将某一块区域中的一个值全部替换成另一个值。已知现在有一个年龄值是240,很明显这是一个异常值,我们要把它替换成一个正常范围内的年龄值(用正常年龄的均值33),怎么实现呢? 在Excel中对某个值进行替换,首先要把待替换的区域选中,如果只是替换某一列中的值,只需要选中
阅读全文
摘要:之前是把所有的菜品都洗好并放在不同的容器里。现在要进行切配了,需要把这些菜品挑选出来,比如做一盘凉拌黄瓜,需要先把黄瓜找出来;要做一盘可乐鸡翅,需要先把鸡翅找出来。数据分析也是同样的道理,你要分析什么,首先要把对应的数据筛选出来。 常规的数据选择主要有列选择、行选择、行列同时选择三种方式。 列选择
阅读全文
摘要:从菜市场买来的菜,总有些不太好的,所以把菜买回来以后要先做一遍预处理,把那些不太好的部分扔掉。现实中大部分的数据都类似于菜市场的菜品,拿到以后都要先做一次预处理。 常见的不规整数据主要有缺失数据、重复数据、异常数据几种,在开始正式的数据分析之前,我们需要先把噶这些不太规整的数据处理掉。 缺失值处理
阅读全文
摘要:导入外部数据 导入数据主要用到的四Pandas的pd.read_x()方法,x表示待导入文件的格式。 导入.xlsx文件 在Excel中导入.xlsx格式的文件很简单,双击打开即可。 在Python中导入.xlsx文件的方式是pd.read_excel() 基本导入 在导入文件时首先要指定文件路径,
阅读全文
摘要:Series数据数据结构 Series是什么 Series是一种类似于一维数组的对象,有一组数据及一组与之相关的数据标签(即索引)组成。 上面这样的数据结构就是Series。 第一列数值是数据标签(索引),第二列是具体的数据。数据标签和数据是一一对应的。 上面的数据用Excel表展示如下表所示。 创
阅读全文
摘要:Pandas数据结构 | 01 Pandas数据结构 | 01 准备食材——获取数据源 | 02 准备食材——获取数据源 | 02 淘米洗菜——数据预处理 | 03 淘米洗菜——数据预处理 | 03 菜品挑选——数据选择 | 04 菜品挑选——数据选择 | 04 切配菜品——数值操作 | 05 切配
阅读全文
摘要:深入浅出数据分析入门 | 01 深入浅出数据分析入门 | 01 分析师必备武器库Excel | 02 分析师必备武器库Excel | 02
阅读全文
摘要:Excel基本数据类型 Excel的基本数据类型包括: 文本型: 主要指英文字母或者汉字组成的文本信息 整数型: 如10,1,-9这样的整数数值 小数型: 如1.01,1.9这样的小数类型 布尔型: TRUE,FALSE,在Excel中TRUE和FALSE并不等于1和0,就是布尔值本身. 日期型:
阅读全文
摘要:数据分析概述 大数据时代与数据分析 计算机问世来到50年间,人类生产的数据总量呈现几何级数的增长. 在很长的一段时间内,我们只是存储数据,但是缺乏有效利用数据的手段. 近年,随着信息技术和信息产业的飞速发展,不仅数据量得到了爆发性的增长,数据处理技术的得到的突飞猛进的发展, 我们终于有了从海量数据中
阅读全文
1