数据分析概述
前言
数据分析=数据获取+探索分析与可视化
数据建模与挖掘=数据预处理+分析建模+模型评估
python: 简洁 开发效率高 运算速度慢 胶水特性
Numpy
-
执行基本的数组操作,如加、减、切片、展平、索引和重塑数组
-
将数组用于高级过程,包括堆叠、拆分和广播
-
使用线性代数和日期时间运算
-
使用 NumPy 的函数锻炼 Python 的统计功能,所有这些都使用一个库
SciPy.org
scipy
是一个python开源的数学计算库,可以应用于数学、科学以及工程领域,它是基于numpy的科学计算库。
- 主要包含了
统计学
、最优化
、线性代数
、积分
、傅里叶变换
、信号处理
和图像处理
以及常微分方程
的求解以及其他科学工程中所用到的计算
Scikit Learn
Scikit-Learn 实际上是 Python 的本地机器学习库,它为数据科学家提供以下算法:
-
支持向量机、随机森林、K-means 聚类、光谱聚类、均值偏移、交叉验证
可以使用此 Scikit-Learn 执行的操作
-
分类、聚类、回归、降维、数据预处理
Matpolib
常用来绘制各种数据的可视化效果图
Pandas
-
在数据框中索引、操作、重命名、排序和合并数据源
-
我们可以轻松地从数据框中添加、更新或删除列
-
分配丢失的文件,处理丢失的数据或 NAN
-
使用直方图和箱线图绘制数据框信息
Keras
Keras是一个由Python编写的开源人工神经网络库,可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口,进行深度学习模型的设计、调试、评估、应用和可视化。
(一)数据获取手段
1.数据仓库: 将所有业务数据经汇总处理,构成数据仓库(DW)
- 全部事实的记录、部分维度与数据的整理(数据集市-DM)
- 数据仓库vs数据库
- 数据库面向业务存储,仓库面向主题存储
- 数据库针对应用OLTP,仓库针对分析OLAP
- 数据库组织规范,仓库可能冗余,相对数据量大、变化大
2.监测与抓取:直接解析网页、接口、文件的信息
- Python常用工具:
urlib urlib2 requests scrapy
PhantomJS beautifulSoup Xpath (lxml)
3. 填写、埋点、日志
- 用户填写信息
- APP或网页埋点(特定流程的信息记录点)
- 操作日志
4. 计算:通过已有数据计算生成衍生数据
(二)数据学习网站
- Kaggle / 阿里云-天池
- IMAGENET / Open Images
- 各领域统计数据
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本