数据分析(一)
一.数据分析初识
1.什么是数据分析
在21世纪,最重要的就是数据,谁掌握了数据,谁就掌握了21世纪的命脉,而数据分析就是能让我们发挥这些数据作用的工具
2.数据分析能干什么
''' 对于数据分析能干什么其实我们可以简单的举几个例子: 1、淘宝可以观察用户的购买记录、搜索记录以及人们在社交媒体上发布的内容选择商品推荐 2、股票可以根据相应的数据选择买进卖出 3、今日头条可以将数据分析应用到新闻推送排行算法当中 4、爱奇艺可以为用户提供个性化电影推荐服务 其实数据分析不仅可以完成像以上这样的推荐系统,在制药行业也可运用数据分析来预测什么样的化合物更有可能制成高效药物等 所以说数据分析绝对是未来所有公司不可或缺的岗位,目前社会上获取数据方式太多了,这么多的数据,只要我们拥有数据分析的技能,绝对可以应付任何岗位上的工作。 '''
3.数据分析的过程
''' 1.提出需求 2.整理数据 整理数据主要分为三步: (1)、收集数据 通过多种途径拿到数据,导入到Jupyter Notebook中 (2)、评估数据 这一步主要是需要找出数据是否存在质量或者结构等方面的问题 (3)、清理数据 通过修改、替换、删除等方式保证数据质量高、结构好 3.数据分析 使用numpy,pandas等工具进行数据分析 4.得出结果并展示 使用matplotlib进行展示 ps: 数据量大的时候,使用hadoop, spark等 '''
4、常用库简介
Numpy
Numpy是Numerical Python的简写,主要可以用来做Python数值计算。它提供了多种数据结构、算法以及大部分涉及Python数值计算所需的接口。
快速、高效的多维数组对象ndarray
基于元素的数组计算以及直接对数组执行数学运算的函数
用于读写硬盘上基于数组的数据集的工具
线性代数运算、傅里叶变换,以及随机数生成
用于将C、C++、Fortran代码集成到python的工具
Pandas
Pandas使我们进行数据分析的一个主要工具。
它所包含的数据结构和数据处理工具的设计使得Python中进行数据清洗和分析非常快捷。
pandas一般也是和其他数值计算工具一起使用的,支持大部分Numpy语言风格的数组计算。
pandas和numpy最大的区别就是pandas是用来处理表格型或者异质性数据的,而Numpy则刚好相反,它更适合处理同质型的数值类数组数据
matplotlib
matplotlib是最流行的用于绘制数据图表的python库。
Scipy
Scipy是科学计算领域针对不同标准问题域的包集合。提供了强大的科学计算方法(矩阵分析、信号分析、数理分析等)
IPython和Juypyter notebook
IPython是一个加强版的Python解释器,Juypyter notebook是一种基于Web的代码笔记本,最初也是源于IPython项目。
二.Ipython的安装与使用
安装
pip3 install ipython
ipython主要是在终端中可以编写python代码,他和原生使用python3编写的不同是,使用ipython会使代码高亮,更方便我们的编写
并且在导包等操作时使用tab键可以给与我们一定的提示,相对原生编写更加的友好
使用ipython后
以后我们需要在终端测试的一些小型的代码就可以在ipython中实现
三.jupyter notebook的安装与使用
两种安装与启动方式
命令行的方式
安装:
pip3 install jupyter
启动:
在需要启动的目录下输入:jupyter notebook
这种命令行的方式必须手动的安装其他数据分析包
首先进入官网:https://www.anaconda.com/
选择对应的版本下载
安装过程中红色部分不要勾选,其他默认选择
使用anaconda软件的方式
优点: 包含了数据分析的基础包 大概 200 个左右的科学运算包
1.anaconda基础功能介绍
2.jupyter notebook编辑器功能介绍
新建一个python3文件
快捷操作
快捷键 单元格为绿色:编辑模式 单元格为蓝色:命令行模式,esc进入该模式 1. 运行当前单元格并选中下一个单元格,shift+enter 2. 运行当前单元格,ctrl+enter 3. 在单元格上方添加单元格,esc+a 4. 下方,esc+b 5. 删除一个单元格,esc+dd 6. 代码和markdown切换,esc+m
需要注意的是这不是一个py文件,他的后缀是ipynb
98