随笔分类 -  Python数据分析

摘要:[toc] 1.简介 (1)根据某些条件将数据拆分成组 (2)对每个组独立应用函数 (3)将结果合并到一个数据结构中 Dataframe在行(axis=0)或列(axis=1)上进行分组,将一个函数应用到各个分组并产生一个新值,然后函数执行结果被合并到最终的结果对象中。 df.groupby(by= 阅读全文
posted @ 2020-05-14 17:06 OLIVER_QIN 阅读(1900) 评论(0) 推荐(0) 编辑
摘要:[toc] 1.数组对象基础 是NumPy的核心功能,其含义是:n dimensional array,即多维数组。在Python中万物皆 ,数组也是一个对象,数组是NumPy的一个重要数据结构。 2.初识数组对象 在Jupyter中查看NumPy的版本(按shift + enter即可运行代码) 阅读全文
posted @ 2020-05-14 10:28 OLIVER_QIN 阅读(1117) 评论(0) 推荐(0) 编辑
摘要:[toc] 1.去重复:duplicated 输出结果: 2.替换:replace 输出结果: 阅读全文
posted @ 2020-02-20 21:18 OLIVER_QIN 阅读(5153) 评论(0) 推荐(0) 编辑
摘要:[toc] 1.Merge Pandas具有全功能的,高性能内存中连接操作,与关系型数据库中的连接操作类似。 语法: 1.1 简单关联:left_on与right_on 下面是Merge的一些实战案例: (1)创建测试数组 (2)使用Merge,找出每个学生对应的班级名字 输出结果: 1.2 使用h 阅读全文
posted @ 2020-02-19 18:13 OLIVER_QIN 阅读(1430) 评论(0) 推荐(0) 编辑
摘要:[toc] 在pandas中针对字符串配备了一套方法,使其容易对数组的每个元素进行操作。 1.字符串调用属性:str 输出结果: 2.字符串常用方法:lower,upper,len,startswith,endswith lower:字母转化为小写 upper:字母转化为大写 len:求每个字符串的 阅读全文
posted @ 2020-02-18 15:25 OLIVER_QIN 阅读(2173) 评论(0) 推荐(0) 编辑
摘要:[toc] 1.axis与skipna参数的使用 注意: 表示空值 输出结果: 2.常用统计方法 其他随机方法列表如下: count:统计非Na值的数量 min:统计最小值 max:统计最大值 quantile:统计分位数,参数q确定位置,例如:quantile(q=0.75) sum:求和 med 阅读全文
posted @ 2020-02-17 23:00 OLIVER_QIN 阅读(539) 评论(0) 推荐(0) 编辑
摘要:[toc] 1.时间序列 重采样 将时间序列从一个频率转换为另一个频率的过程,且会有数据的结合。 降采样:高频数据 → 低频数据,例如:以月为频率的数据转为以年为频率的数据 升采样:低频数据 → 高频数据,例如:以年为频率的数据转为以月为频率的数据 1.1 重采样 1.2 降采样 1.3 升采样及插 阅读全文
posted @ 2020-02-08 17:33 OLIVER_QIN 阅读(1354) 评论(0) 推荐(0) 编辑
摘要:[toc] 1.时间序列的索引与切片 1.1 索引 1.2 切片 2.重复索引的时间序列 阅读全文
posted @ 2020-02-08 17:20 OLIVER_QIN 阅读(1768) 评论(0) 推荐(0) 编辑
摘要:[toc] 1.date_range 1.1 按频率生成时间段 1.2 按复合频率生成时间段 1.3 asfreq频率转换 1.4 生成超前 滞后的数据范围 2.时间戳索引DatetimeIndex 以下是一个生成时间戳索引的案例 阅读全文
posted @ 2020-02-08 16:42 OLIVER_QIN 阅读(7607) 评论(0) 推荐(1) 编辑
摘要:[toc] 时间模块主要有: ,`datetime.datetime() datetime.timedelta()` 1.时间模块datetime 1.1 date 主要用于获取日期,例如获取当前日期或者特定日期,获取的日期可以由str方法直接转化为字符串格式 1.2 datetime 主要用于获取 阅读全文
posted @ 2020-02-08 14:39 OLIVER_QIN 阅读(779) 评论(0) 推荐(0) 编辑
摘要:[toc] 1.什么是Pandas Pandas是基于Numpy构建,专门为数据分析而存在的! 一维数组Series + 二维数组DataFrame 可以直接读取数据并处理(简单高效) 支持多种数据库 支持多种分析算法 2.数据结构Series 2.1 基本概念与创建 2.1.1 基本概念 是带有数 阅读全文
posted @ 2020-02-07 21:30 OLIVER_QIN 阅读(336) 评论(0) 推荐(0) 编辑
摘要:环境描述 Python环境:Python 3.6.1 系统版本:windows7 64bit 文件描述 一共有三个文件,分别是:file_01.txt、file_02.txt、file_03.txt file_01.txt文件内容: 我吃过糖之后,发现我的牙齿真的很疼 file_02.txt文件内容: 牙疼不是病疼起来要人命. file_03.txt文件内容: 我的肚子不舒服!与此同时,牙疼也... 阅读全文
posted @ 2018-05-05 22:31 OLIVER_QIN 阅读(774) 评论(0) 推荐(0) 编辑
摘要:jieba是一个强大的分词库,完美支持中文分词 安装jieba 使用命令安装 pip install jieba 出现上图表示安装成功了 jieba分词模式 全模式 全模式:试图将句子精确地切开,适合文本分析,输出的是多有可能的分词组合 import jieba str = "我是一个中国人" word1 = jieba.cut(str,cut_all=True) for item in wo... 阅读全文
posted @ 2018-05-02 23:24 OLIVER_QIN 阅读(3803) 评论(0) 推荐(0) 编辑
摘要:在之前的文章中【爬取天气信息】我们已经将昆明二月份的气温爬取到数据库了,那么现在我们需要对这些数据进行一些分析操作,下面是使用matplotlib对这些数据的一些操作 折线图 首先我们读取数据库中的数据:日期、最高气温、最低气温 读取完毕之后,绘制折线图,并对折线图的线条与坐标轴的访问等进行一些设置 import matplotlib.pyplot as plt import pandas as... 阅读全文
posted @ 2018-05-01 23:12 OLIVER_QIN 阅读(15442) 评论(0) 推荐(0) 编辑
摘要:导入CSV文件数据环境C:\Users\Thinkpad\Desktop\Data\信息表.csv语法pd.read_csv(filename):从CSV文件导入数据实现代码import pandas as pdf = open("C:/Users/Thinkpad/Desktop/Data/信息表.csv",encoding="utf-8")content = pd.read_csv(f)pri... 阅读全文
posted @ 2018-04-28 10:45 OLIVER_QIN 阅读(13773) 评论(0) 推荐(1) 编辑
摘要:安装好Numpy模块后,开始做了几个小测试都可以运行,但是当我创建numpy.py这个文件后numpy.pyimport numpyy = numpy.array([[11,4,2],[2,6,1],[32,6,42]])print(y)运行后报错了:Traceback (most recent call last): File "D:\Python_Reptile\numpy.py", l... 阅读全文
posted @ 2018-04-27 16:51 OLIVER_QIN 阅读(7533) 评论(0) 推荐(0) 编辑
摘要:上一节,我们已经安装了numpy,基于numpy,我们继续来看下pandas pandas用于做数据分析与数据挖掘 pandas安装 使用命令 出现上图表示安装成功。 pandas又两大数据结构,数据分析相关的都围绕着这两种结构进行: ①Series ②DataFrame Series用于存储序列这 阅读全文
posted @ 2018-04-26 22:39 OLIVER_QIN 阅读(1061) 评论(2) 推荐(1) 编辑
摘要:Numpy模块可以高效的处理数据,提供数组支持、很多模块都依赖他,比如:pandas、scipy、matplotlib 安装Numpy 首先到网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/下查找numpy+mkl 我的Python版本是3.6.1,系统是64位 所以对应下载的包为: 下载好包之后,进入到包所在目录(例如:D:\安装包\安装包~Py... 阅读全文
posted @ 2018-04-26 22:25 OLIVER_QIN 阅读(401) 评论(0) 推荐(0) 编辑
摘要:索引对象的其他功能 ①更换索引 ②对齐 ③删除 一、更换索引 我们已经知道,数据结构一旦声明,index对象就不能改变 事实上,我们重新定义索引之后,我们就能够用现有的数据结构生成一个新的数据机构 pandas的reindex()函数可更换Series对象的索引。它根据新标签序列,重新调整原来Series的元素,生成一个新的Series对象 新增的索引没有值与其对应,使用NaN代替,删除了没... 阅读全文
posted @ 2017-12-13 22:24 OLIVER_QIN 阅读(365) 评论(0) 推荐(0) 编辑
摘要:IPython有一些特殊的命令(被称为魔术命令),他们有的为常见的任务提供便利,有的则使你能够轻松的控制IPython系统的行为 魔术命令是以百分号%为前缀的命令 常用的IPython魔术命令 命令 说明 %quickref 显示IPython的快速参考 %magic 显示所有魔术命令的详细文档 %debug 从最新的异常... 阅读全文
posted @ 2017-12-06 23:16 OLIVER_QIN 阅读(3899) 评论(0) 推荐(0) 编辑