Python 机器学习之开发环境
Python 数据分析库
Python 编程语言
Pythong Tutorial: https://docs.python.org/3/tutorial/
NumPy
提供常用的数值数组、矩阵等函数,为Python提供快速的多维数组处理能力。
文档QuickStart:https://docs.scipy.org/doc/numpy/user/quickstart.html
SciPy
是一种使用NumPy来做高等数学、信号处理、优化、统计的扩展包。
在NumPy基础上添加了众多科学计算工具包。
Pandas
Python Data AnalysiS Library
是一种构建于NumPy的高级数据结构和精巧工具,能快速简单的处理数据。
在Numpy基础上提供了更多的数据读写工具。
文档:http://pandas.pydata.org/pandas-docs/stable/
Matplotlib
Python绘图库
nltk
自然语言处理工具包 (Natural Language Toolkit)
igraph
图计算和社交网络分析库
Scikit-learn
是建立在Scipy之上的一个用于机器学习的Python模块。
http://scikit-learn.org/stable/index.html
Python 开发环境
pip
pip 是一个Python包管理工具,主要是用于安装 PyPI 上的软件包,可以替代 easy_install 工具。
安装Python包的推荐工具: https://pypi.python.org/pypi/pip
更换国内源:pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/simplenumpy
IPython
IPython是一个交互式的Python环境,是Python的原生交互式 shell 的增强版,可以完成许多不同寻常的任务,比如帮助实现并行化计算;主要使用它提供的交互性帮助,比如代码着色、改进了的命令行回调、制表符完成、宏功能以及改进了的交互式帮助。
Jupyter Notebook
Jupyter Notebook,以前又叫IPython notebook,是一个交互式的编程环境, 现在已支持运行40+种编程语言,可以用来编写漂亮的交互式文档。用Jupyter Notebook编写Python代码,能很好的交互式展现运行结果。
Anaconda
Anaconda Python 是Python科学技术包的合集,功能和Python(x,y) 类似。它是新起之秀,已更新多次了。包管理使用conda,GUI基于 PySide,所有的包基本上都是最新版,没有PyQt和wxpython等,容量适中,但该有的科学计算包都有:numpy,sicpy,matplotlib,spyder....。
Anaconda Python 是完全免费的企业级的Python发行大规模数据处理、预测分析和科学计算工具。
Linux系统里面,Anaconda 安装、更新和删除都很方便,且所有的东西都只安装在一个目录中 /home/user/anaconda/。Anaconda的开发和维护中有Python创始人和社区的核心成员。Anaconda目前提供Python 2.6.X,Python 2.7.X,Python 3.3.X和Python 3.4.X四个系列发行包,这也是其他发行版所望尘莫及的。因此在各种操作系统中,无论是Linux,还是Windows、Mac,都推荐Anaconda!
由于Anacoda是Python科学技术包的合集,所以不同的包所遵循的协议不一样,可以参看http://docs.continuum.io/anaconda/licenses.html
Anacoda 常用文档如下:
Anaconda集成了IPthon、Jupyter Notebook,能自动解决Python的依赖问题。使用Anaconda安装、管理、使用Python及Python的各种包很方便,推荐使用Anaconda。
查看Python版本
import sys
print('Python: {}'.format(sys.version))
import scipy
print('scipy: {}'.format(scipy.__version__))
# numpy
import numpy
print('numpy: {}'.format(numpy.__version__))
# matplotlib
import matplotlib
print('matplotlib: {}'.format(matplotlib.__version__))
# pandas
import pandas
print('pandas: {}'.format(pandas.__version__))
# scikit-learn
import sklearn
print('sklearn: {}'.format(sklearn.__version__))
我的开发环境输出如下:
Python: 2.7.13 |Anaconda 4.4.0 (x86_64)| (default, Dec 20 2016, 23:05:08)
[GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.57)]
scipy: 0.19.0
numpy: 1.12.1
matplotlib: 2.0.2
pandas: 0.20.1
sklearn: 0.18.1