数据分析概述

前言

数据分析=数据获取+探索分析与可视化

数据建模与挖掘=数据预处理+分析建模+模型评估

python: 简洁 开发效率高 运算速度慢  胶水特性

  Numpy

  • 执行基本的数组操作,如加、减、切片、展平、索引和重塑数组

  • 将数组用于高级过程,包括堆叠、拆分和广播

  • 使用线性代数和日期时间运算

  • 使用 NumPy 的函数锻炼 Python 的统计功能,所有这些都使用一个库

  SciPy.org

  scipy是一个python开源的数学计算库,可以应用于数学、科学以及工程领域,它是基于numpy的科学计算库。

  • 主要包含了统计学最优化线性代数积分傅里叶变换信号处理图像处理以及常微分方程的求解以及其他科学工程中所用到的计算

  Scikit Learn

  Scikit-Learn 实际上是 Python 的本地机器学习库,它为数据科学家提供以下算法:

  • 支持向量机随机森林K-means 聚类光谱聚类均值偏移交叉验证

  可以使用此 Scikit-Learn 执行的操作

  • 分类、聚类、回归、降维、数据预处理

  Matpolib

  常用来绘制各种数据的可视化效果图

  Pandas

  • 在数据框中索引、操作、重命名、排序和合并数据源

  • 我们可以轻松地从数据框中添加、更新或删除列

  • 分配丢失的文件,处理丢失的数据或 NAN

  • 使用直方图和箱线图绘制数据框信息

  Keras

  Keras是一个由Python编写的开源人工神经网络,可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口,进行深度学习模型的设计、调试、评估、应用和可视化。

(一)数据获取手段

1.数据仓库: 将所有业务数据经汇总处理,构成数据仓库(DW)

  • 全部事实的记录、部分维度与数据的整理(数据集市-DM)
  • 数据仓库vs数据库
  1. 数据库面向业务存储,仓库面向主题存储
  2. 数据库针对应用OLTP,仓库针对分析OLAP
  3. 数据库组织规范,仓库可能冗余,相对数据量大、变化大

2.监测与抓取:直接解析网页、接口、文件的信息

  • Python常用工具:

   urlib urlib2 requests scrapy

   PhantomJS beautifulSoup Xpath (lxml)

3. 填写、埋点、日志

  • 用户填写信息
  • APP或网页埋点(特定流程的信息记录点)
  • 操作日志

4. 计算:通过已有数据计算生成衍生数据

(二)数据学习网站

  • Kaggle / 阿里云-天池
  • IMAGENET / Open Images
  • 各领域统计数据

 

posted @   宅马花子  阅读(27)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
点击右上角即可分享
微信分享提示