1 数据分析概述
数据分析工具
Python本身的数据分析功能不强,需要安装一些第三方的扩展库来增强的它的能力。我们课程用到的库包括Numpy、Matplotlib、Pandas等,下面对这三个库做一个简单介绍,后面会通过案例深入讲解相关库的使用。
Numpy
Python并没有提供数组的功能。虽然列表可以完成基本的数组功能,但它不是真正的数组,而且在数据量较大的时候,使用列表的速度会慢的让人难以接受。为此,Numpy提供了真正的数组功能,以及对数据进行快速高效处理的函数。Numpy还是很多更高级的扩展库的依赖库,后面讲解的Matplotlib库、Pandas库都依赖于它。值得强调的是,Numpy内置函数处理数据的速度是C语言界别的,因为在编写程序的时候,应当尽量使用它们内置的函数,避免出现效率瓶颈的现象。
Numpy是Python中相当成熟和常用的库,因此关于它的教程有很多。
Matplotlib
不论是数据挖掘还是数学建模,都免不了数据可视化的问题。对于Python来说, Matplotlib来说是最著名的会图库,它主要用于二维绘图。它可以让我们非常快捷的用Python可视化数据。
Pandas
Pandas是Python下最强大的数据分析工具。它包含高级的数据结构和精巧的工具,使得在Python中处理数据非常快速和简单。Pandas构建与Numpy之上,它使得以Numpy为中心的应用很容易被使用。其最初是被作为金融数据分析工具而开发出来的,由AQR Capital Management公司于2008年4月开发出来并于2009年开源。
Pandas功能非常强大,支持类似与SQL的数据增、删、改、查,并且带有丰富的数据处理函数,支持灵活的处理缺失数据。
Anaconda
Anaconda是一个用于科学计算的Python发行版,支持Linux、Mac、Windows. 提供了包管理和不同Python环境管理的功能, 可以很方便解决多版本Python问题和各种包安装问题. Anaconda使用conda命令来进行包管理和虚拟环境管理.
anaconda和conda区别: conda是一个工具,主要是进行包管理和虚拟环境管理. anaconda是一个包含了众多的package、科学计算工具的集合, 所以我们也称Anaconda为Python的一个发行版.
# 创建Python版本3.4的环境my-env-py3 conda create --name my-env-py3 python=3.4 # activate激活环境 # Windows命令没有source # activate my-env-py3 # Linux & Mac激活命令 source activate my-env-py3 # 查看版本 python --version # for Windows deactivate my-env-py3 # for Linux & Mac source deactivate my-env-py3 # 删除一个已有的环境 conda remove --name python34 --all
安装包:
# 安装第三方包 conda install django=1.8.2 # 卸载第三方包 conda uninstall django
为什么需要jupyter notebook?
在进行数据分析时,我们需要和其他人进行沟通,重现我们整个分析过程,并将说明文字、代码、图表、公式、结论都整理在一个文档中, 也就是说数据分析的过程是一个不断计算,并且绘图的工作流程。 显然传统的文本编辑器并不能很好满足我们的需求,我们今天使用一款数据分析编辑器jupyter notebook.
我们以前在编写代码的时候,读者是机器,而不是人,所以我们按照计算机的逻辑思维来编写程序,我们进行数据分析,读者就不再是机器,而是人了,所以我们需要从编写让机器读得懂的代码过渡到人们解说如何让机器实现我们的想法,其中除了代码,更多的是叙述性文字、图表内容。所以数据分析师不仅是一个好程序员还是一个好作家。好作家就需要一款好的编辑器,jupyter notebook 就是一款集编程与写作于一体的效率工具。
说到 Jupyter 你会觉得陌生,但你或多或少听过鼎鼎大名的 IPython。其实Jupyter 脱胎于 IPython 项目,IPython 顾名思义,是专注于 Python 的项目,但随着项目发展壮大,已经不仅仅局限于 Python 这一种编程语言了。Jupyter 的名字就很好地释义了这一发展过程,它是 Julia、Python 以及 R 语言的组合,字形相近于木星(Jupiter),而且现在支持的语言也远超这三种了。
jupyter安装
- 创建虚拟环境
pip install virtualenv pip install virtualenvwrapper-win mkvirtualenv data-env-py3
2. 安装工具包
pip install numpy pip install matplotlib pip install pandas # windows可直接安装whl包 pip install jupyter
3. 打开jupyter notebook
workon data-env-py3 jupyter notebook
显示效果如下:
入门简单演练
效果图如下:
shirt + 回车 --------> 当前代码全部执行,并跳到下一行
ctr + 回车---------> 只执行当前行,不跳到下一行
输入代码
10+20
输入代码
import matplotlib.pyplot as plt plt.plot([1,2,3,4],[2,4,6,8]) plt.show()
这个位置可以选择marterdang语法
#号和输入的内容之间要有空格
点击这里可以给当前的文件重命名
命名前:
命名后