python-数据处理的包Numpy,scipy,pandas,matplotlib

Posted on 2018-10-06 11:43  moisiet  阅读(1492)  评论(0编辑  收藏  举报

一,NumPy包(numeric python,数值计算)

该包主要包含了存储单一数据类型的ndarry对象的多维数组和处理数组能力的函数ufunc对象。是其它包数据类型的基础。只能处理简单的数据分析能力,对于高级的数据处理和大数据分析,采用pandas包。

python自带的list可以包含不同类型的数据,原因是list保存的实际是这些数据的指针,这样才能实现不同类型的数据都能保存在list中。但缺点是这样的保存方式消耗内存,运行工作量大。

二,Scipy包(scientific python,科学计算)

主要用于数据处理,包括统计分析,优化,整合,线性代数,傅里叶变换,信号处理,图像处理,常微分方程求解等,依赖与Numpy包,因为numpy是该包数据类型来源。

三,Pandas包

主要用于数据清洗,整理,建立在numpy上。

擅长处理大数据(文本,csv,excel等数据)。数据也来自与numpy类型数据,因此依赖numpy包

四,matplotlib包

matplotlib也是基于numpy的包,主要负责数据的可视化显示。

五,scikit-learn包

机器学习,建立在scipy基础上

基本功能被分为六个部分,分类,回归,聚类,数据降维,数据选择,数据预处理

六,Nltk包

自然语言处理

七,Pattern包

网络挖掘

八,Theano包

深度学习

九,Scrappy包

网络爬虫

参考文献:z00182 python与数据科学