pandas

一、创建数据

  Python 里面有三种很重要的数据结构,其中一种是 Numpy 里的 Array,应用在了很多的科学计算场景里。另外两种则是 Pandas 的 Series 和 DataFrame,其中 Series 是一维的结构,DataFrame 则是二维的结构。DataFrame 可以来自于列表、字典,也可以来自于我们从各种接口里面读到的数据/文本。只要我们对其成功地 DataFrame 化,便可进入下一步的处理。

 

 

 

二、预览数据

1.通过 head 和 tail 观察头部和尾部的数据;

 

2.通过 index 和 columns 观察索引和列名;

 

3.通过 describe 进行简单的统计观察;

 

 4.通过 sort 进行排序观察。

 

 

三、数据筛选

  数据筛选,其实也是一种广义上的数据观察,只是相对于上面所说的预览数据而言,数据筛选不再局限于数据的外部轮廓,而是深入到了其内部的肌理。

1.通过列名和行数直接筛选;

 

 2.基于行与列标签的 loc 筛选;

 

 3.基于行与列位置的 iloc 筛选;

 

 4.基于布尔索引的筛选。

 

 

四、缺失值处理

  在不同的场景下,缺失值可以填 0,填众数,或者平均值。

1、缺失值清除

 

 2、缺失值填充

 

 

五、函数操作

1、lambda匿名函数

 

 

6、数据拼接

1、merge和sql里的join较为相似,

 

 2、多表拼接的concat

 

 

七、数据聚合与重塑

1、groupby 

 

 2、stack

 

 

八、数据读取与写入

1、pandas读取CSV数据

 

 2、pandas读取并处理excel数据

 

posted @ 2023-03-15 15:28  小王同学学编程  阅读(49)  评论(0编辑  收藏  举报
levels of contents