摘要:
加载数据 数据来源阿里天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649 数据信息: 数据量级达到一亿,考虑到电脑性能问题,故随机抽样其中的100万左右数据作为本次分析的原始数据. import numpy as np import 阅读全文
摘要:
加载购买商品表的数据 数据来源阿里天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=45 购买商品表字段信息: 用户ID 商品ID 商品二级分类 商品一级分类 商品属性 购买数量 购买日期 import pandas as pd impo 阅读全文
摘要:
线性图:plt.plot() 绘制单条线形图 绘制多条线形图 设置坐标系的比例plt.figure(figsize=(a,b)) 设置图例legend() 设置轴的标识 图例保存 fig = plt.figure() plt.plot(x,y) figure.savefig() 曲线的样式和风格(自 阅读全文
摘要:
需求 加载数据 查看数据的基本信息 指定数据截取,将如下字段的数据进行提取,其他数据舍弃 cand_nm :候选人姓名 contbr_nm : 捐赠人姓名 contbr_st :捐赠人所在州 contbr_employer : 捐赠人所在公司 contbr_occupation : 捐赠人职业 co 阅读全文
摘要:
替换操作 replace 替换操作可以同步作用于Series和DataFrame中 单值替换 普通替换: 替换所有符合要求的元素:to_replace=15,value='e' 按列指定单值替换: to_replace={列标签:替换值} value='value' 多值替换 列表替换: to_re 阅读全文
摘要:
需求 导入文件,查看原始数据 将人口数据和各州简称数据进行合并 将合并的数据中重复的abbreviation列进行删除 查看存在缺失数据的列 找到有哪些state/region使得state的值为NaN,进行去重操作 为找到的这些state/region的state项补上正确的值,从而去除掉stat 阅读全文
摘要:
基于pandas的数据清洗 处理丢失数据 有两种丢失数据: None np.nan(NaN) 两种丢失数据的区别 None 是对象类型 np.nan 是浮点类型 type(None) # NoneType 对象类型 type(np.nan) # float 浮点类型 为什么在数据分析中需要用到的是浮 阅读全文
摘要:
tushare财经数据接口包 pip install tushare 作用:提供相关指定的财经数据 相关文档:http://tushare.org/ 需求:股票分析 使用tushare包获取某股票的历史行情数据。 输出该股票所有收盘比开盘上涨3%以上的日期。 输出该股票所有开盘比前日收盘跌幅超过2% 阅读全文
摘要:
为什么学习pandas numpy已经可以帮助我们进行数据的处理了,那么学习pandas的目的是什么呢? numpy能够帮助我们处理的是数值型的数据,当然在数据分析中除了数值型的数据还有好多其他类型的数据(字符串,时间序列),那么pandas就可以帮我们很好的处理非数值型数据! 什么是pandas? 阅读全文
摘要:
什么是数据分析 是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律 使得数据的价值最大化 分析用户的消费行为 制定促销活动的方案 制定促销时间和粒度 计算用户的活跃度 分析产品的回购力度 分析广告点击率 决定投放时间 制定广告定向人群方案 决定相关平台的投放 ...... 阅读全文