初识数据分析
1.数据分析概述
(1).有阵地性的收集,加工,整理数据,并采用统计和挖机技术分析和介绍数据的科学与艺术.
(2).描述数据的特征,预测数据趋势,展示分析结果.
(3).从一大堆数据中提取到你想要的信息,就是数据分析.
数据分析是指用适当的统计分析方法,对收集来的大量数据进行分析,隐藏在数据背后的信息提炼出来,提取有用信息和形成结论,而对数据加以详细研究和概况总结的过程
数据分析的主要作用:
现状分析:分析已经发生了什么
原因分析:分析为什么发生某一现状
预测分析:分析将来可能发生什么
2.数据分析引用领域和应用场景
交通流量分析(构建交通状况预测分析模型,预测实时路况,物流状况,车流量,可流量)
网络安全分析(构建潜在攻击识别分析模型,监测网络活动数据和相应放访问行为,识别可能进行入侵的可疑模式)
市场营销分析(产品分析,价格分析,渠道分析,广告与促销分析,)
客户分析(客户忠诚分析,客户收益分析,客户社交圈分析)
社交媒体分析(用户分析,访问分析,互动分析)
设备管理分析(建立设备管理模型分析连续用电,零部件温度,环境湿度,污染物颗粒,确保设备正常作业)
3.数据分析流程
(1).需求分析(2).数据获取(3).数据预处理(4).分析与建模(5).模型评价与优化(6).部署
4.数据分析核心方法介绍
数据商业价值分析收入,支出,风险
数据分析编程语言python
科学计算库numpy,高级科学计算库scipy,数据分析库pandas,数据可视化库matplotlib,机器学习库sklearn
数据分析核心分析理论
简单分析方法
1.描述性分析:对调查总体搜友变量的有关数据做统计性描述
(1).集中趋势分析(均值,中位数,众数)
(2).数据离散程度分析(最大值,最小值,极差,方差,标准差)
(3).数据的分布形态(偏度,峰度)
(4).数据的频数分析(频书分布表,条形图,直方图,百分位值)
2.探索性分析
(1).通过可视化的方式深入了解数据中的特征
(2).寻找数据特征之间的关系,鉴别特征之间有趣的或者意想不到的关系
(3).分析并希望找出与结果有关的特征,进而完成特征工程的构建
(4).是否需要更多数据做数据分析的支撑
深层业务逻辑建模分析(机器学习)
1.分类:将实例数据划到合适的类别中,分类的目标变量一般是类别型的,一般分为二分类和多分类
分类是依据历史数据形成刻画事物特征的类标识,进而预测未来数据的归类情况.
目的是学会一个分类函数或分类模型(分类器),该模型能把数据集中的事物映射到给定类别中的某一个类.
2.聚类:对数据分组以形成新类,类标记是未知的
将物理或抽象的集合分组成为由类似的对象组成的多个类的过程
生成一组数据对象的集合=>簇,同一个簇中的对象彼此相似,与其他簇的相异,大多应用中簇可看成整体
3.回归:根据已有数值(行为)预测未知数值(行为)的过程,与分类模式的分析不同,预测分析更侧重于"量化".
通常使用分类方法预测分类标号(或离散值),使用回归方法预测连续或有序值
结构化思维(金字塔思维)将论点归纳和整理,将论点递进和拆解,将论点完善和补充
公式化:应用公式将数据量化
业务化:从业务方的角度考虑,分析原因,将分析结果落地
做好分析,理解业务是关键
5.环境搭建