第一章Python数据分析概述

第一章Python数据分析概述

1、理解数据

2、认识数据分析

3、数据分析工具Python

4、重要的Python数据分析类库

5、集成开发环境和文本编辑器

6、使用Jupyter Notebook

 

第1节:理解数据

1、数据有结构化数据、半结构化数据和非结构化数据

结构化数据有: 1、表格型数据 2、多维数组(矩阵) 3、通过关键列相互联系的多个表(如sql中的主外键) 4、间隔平均或不平均的时间序列

 

第2节:认识数据分析

1、数据分析是数学与计算机科学结合的产物

2、数据分析方法

  • 描述型分析
  • 诊断型分析
  • 预测型分析
  • 指令型分析

3、数据分析的一般流程

  1. 需求分析
  2. 数据获取
  3. 数据预处理
  4. 数据分析与建模
  5. 模型评价和优化
  6. 部署
 

第3节:数据分析工具Python

1、目前主流的数据分析语言有R、Python

功能对比:

  • Python与R相比速度更快
  • Python的工程化应用强于R
  • Python的应用场景大于R
  • Python处理大数据的速度快于R
  • 统计理论研究、前沿科学研究,R比Python更胜一筹

应用场景对比

  • 使用Python进行数据预处理、数据清洗,特别是针对非结构化的数据,具有极强的灵活性,能够从自由文本、网站等提取信息,便于图像挖掘和为分析准备数据
  • 使用R进行分析、数据可视化与建模:
    • 为分析提供了极好的灵少性
    • R使你在分析时候更容易思考
    • 由于R有着十分活跃的统计和数学社区

2、Python的优势

  • 优雅、简单、明确
  • 强大的标准库
  • 良好的可扩展性
  • 胶水语言(开源、可移植、可嵌入到C等程序中)
 

第4节:重要的Python数据分析类库

1、NumPy(Numerical Python)是Python科学计算的基础包

  • 提供了快速高效的多维数组对象ndarray
  • 提供了对数组执行元素级计算以及直接对数组执行数学运算的函数
  • 提供了读写硬盘上基于数组的数据集的工具
  • 提供了线性代数运算、傅里叶变换、随机数生成功能
  • 提供了成熟的C API,用于Python插件和原生C、C++、Fortran代码访问NumPy的数据结构和计算工具

  • NumPy为Python提供快速的数组处理能力

  • NumPy在数据分析方面作为在算法和库之间传递数据的容器
  • 对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多
  • 由低级语言编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作

2、pandas是Python的一个数据分析包(最初由金融数据分析工具开发而来)

  • pandas为时间序列分析提供了很好支持
  • pandas是基于NumPy的一种工具,是为了解决数据分析任务而创建的
  • pandas纳入了大量库和一些标准的数据模型,提供了高效的操作大型数据集所需的工具
  • pandas提供了大量能使我们快速便捷处理数据的函数和方法
  • pandas是使Python成为强大而高效数据分析环境的重要因素之一

3、Matplotlib是Python的一个2D绘图库

  • 它以各种硬拷贝格式和跨平台的交互式环境,生成用于出版质量级别的图形
  • Matplotlib操作简单,几行代码就可以生成折线图、直方图、功率谱图、条形图、错误图、散点图等
  • 提供了pylab的模块,其中包括了NumPy和pyplot中许多常用的函数,方便用户快速进行计算和绘图

4、SciPy是一组专门解决科学计算中各种标准问题域的包的集合

5、scikit-learn是最为流行的Python的通用机器学习工具包

6、stats models是一个统计分析包,包含经典统计学和经济计算学的算法

 

第5、6节:集成开发环境和文本编辑器及使用Jupyter Notebook

  • Tab补全
  • shit+enter 运行代码
  • 加粗 节能
  • 斜体 斜体
  • 表格制作
  • 导出方式
posted @ 2020-07-11 23:39  udbful  阅读(508)  评论(0编辑  收藏  举报