数据分析--学习笔记01
python数据分析
python数据分析工具包
Numpy, SciPy.org, matplotlib,lean,pandas,k
学习方法: 重视理论 --》勤于查阅 --》 身体力行 --》 联系实际
数据获取手段
数据仓库
将所有业务数据经汇总处理,构成数据仓库-- DW
全部事实的记录
部分维度和数据的整理-- 数据集市DM
数据库 vs 仓库
数据库面向业务存储,仓库面向主题存储 (主题:较高层次上对分析对象数据的一个完整并且一致的描述)
数据库针对应用 OLTP -- On-Line Transaction processing
仓库针对分析 OLAP -- On-Line Analysis Processing
数据库组织规范,仓库可能冗长,相对变化大,数据量大
检测与抓取
直接解析网页、接口、文件信息
python常用工具:
urllib,urllib2, requests, scrapy, PhantomJS, beautifulSoap, xpath(lxml)
填写、埋点、日志
用户填写信息
APP 或网页埋点 -- 特定流量的信息记录点
操作日志
计算
通过已有数据计算生成衍生数据
例如:统计报表信息
数据学习网站
数据竞赛网站:
Kaggel: https://www.kaggle.com/
天池: https://tianchi.aliyun.com/dataset
数据集网站:
ImageNet: https://www.image-net.org/
Open images : https://www.kaggle.com/datasets/bigquery/open-images
各领域的统计数据:
统计局、政府机构、公司财报
数据分析理论
集中趋势:均值,中位数与分位数,众数
四分位数计算方法:
Q1的位置 = (n+1) x 0.25
Q2的位置 = (n+1) x 0.5
Q3的位置 = (n+1) x 0.75
离中趋势:方差与标准差
偏态系数与峰度系数
正态分布与三大分布
抽样理论
抽样误差与精度
案例1:
案例2:
数据分类
定类(类别):根据事物离散、无差别属性进行的分类
定序(顺序):可以界定数据的大小,但不能测定差值
定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点
定比(比例):可以界定数据大小,可以测定差值,有绝对零点
单属性分析
异常值分析:离散异常值,连续异常值,常识异常值
对比分析:绝对数与相对数,时间、空间、理论维度比较
绝对数比较,
相对数比较:结构、比例、比较、动图、强度
时间、空间、经验与计划
结构分析:各组成部分的分布与规律
部分:总体 --》 静态 动态
分布分析:数据分布频率的显式分析
本文来自博客园,作者:逆流的鱼2016,转载请注明原文链接:https://www.cnblogs.com/orange2016/p/16859168.html