DataWhale 学习pandas 1-01 pandas基础

6月开始学习pandas,先学基础部分(DataWhale 学习pandas 1)。

还是主要记录学习的主要问题,教程datawhale-pandas。

1、pandas是处理类excel表格的,有点像excel+vba ---pandas+python

2、基础部分是读写、数据类型、series和dataframe类型的属性和方法、常用函数。

         Series:构建的方法,一组数组(列表或元组),利用Series(),自动生成索引。或Series(字典),值只有一列,无列索引,只有行索引

              属性: .index、.values   .name   .index.name   .values.name

         DataFrame:构建方法:直接传入一个由等长列表或Numpy数组组成的字典,利用DataFrame(),值有多列,并有列索引。

         DataFrame:是一个表格型的数据结构,包含一组有序的列,每列可以是不同的值类型,既有行索引,又有列索引。

              属性有DataFrame:.columns、 .index、.values

         #列可以通过赋值方式进行修改,或增加列,将列表或者数组赋值给某个列时,其长度必须跟DataFrame的长度相匹配

           如果是Series,就会精确匹配DataFrame的索引,所有空位都将被填上缺失值

https://www.cnblogs.com/smallcrystal/p/5809864.html

3、问题1: value_counts会统计缺失值吗【不会】

4、问题2:如果有多个索引同时取到最大值,idxmax会返回所有这些索引吗?如果不会,那么怎么返回这些索引?

【不会,只会找一个,但可以写一个循环,参考下面链接】

https://blog.csdn.net/qq_41954153/article/details/105919605?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

5、问题3:df.mean(axis=1)是什么意思?

【df.mean(axis=1)代表沿着列水平方向计算均值,而第二个列子df.drop(name, axis=1) 代表将name对应的列标签(们)沿着水平的方向依次删掉「https://www.cnblogs.com/rrttp/p/8028421.html」】

6、series的add方法和加号不同,add可以保留全部数据,没有NaN。

https://blog.csdn.net/qq_42571805/article/details/81151719

7、series缺失值处理

有时数据缺失了,可以通过isnull()或notnull()函数判断是否缺失,我们可以通过布尔索引形式过滤掉NaN的数据。【https://blog.csdn.net/chenzhanhai/article/details/104598462

8、如果DataFrame某一列的元素是numpy数组,那么将其保存到csv在读取后就会变成字符串,怎么解决?

【如:df = pd.read_csv("file.csv", dtype = {'patient_ID' : int}) 读取的时候设置为int整型】

9、目前只看了教程,没有运行做题,【练习题看,很详细https://blog.csdn.net/qq_42251120/article/details/105625982

还可参考:

http://blkstone.github.io/2015/11/21/pandas-tutorial-1/

 

posted @ 2020-06-20 03:36  haiyanli  阅读(163)  评论(0编辑  收藏  举报