DataWhale 学习pandas 1-01 pandas基础

6月开始学习pandas，先学基础部分（DataWhale 学习pandas 1）。

还是主要记录学习的主要问题，教程datawhale-pandas。

1、pandas是处理类excel表格的，有点像excel+vba ---pandas+python

2、基础部分是读写、数据类型、series和dataframe类型的属性和方法、常用函数。

Series:构建的方法，一组数组（列表或元组），利用Series(),自动生成索引。或Series(字典),值只有一列，无列索引，只有行索引

属性： .index、.values .name .index.name .values.name

DataFrame:构建方法：直接传入一个由等长列表或Numpy数组组成的字典，利用DataFrame（），值有多列，并有列索引。

DataFrame:是一个表格型的数据结构，包含一组有序的列，每列可以是不同的值类型，既有行索引，又有列索引。

属性有DataFrame：.columns、 .index、.values

#列可以通过赋值方式进行修改，或增加列,将列表或者数组赋值给某个列时，其长度必须跟DataFrame的长度相匹配

如果是Series，就会精确匹配DataFrame的索引，所有空位都将被填上缺失值

3、问题1: value_counts会统计缺失值吗【不会】

4、问题2：如果有多个索引同时取到最大值，idxmax会返回所有这些索引吗？如果不会，那么怎么返回这些索引？

【不会，只会找一个，但可以写一个循环，参考下面链接】

5、问题3:df.mean(axis=1)是什么意思？

【df.mean(axis=1)代表沿着列水平方向计算均值，而第二个列子df.drop(name, axis=1) 代表将name对应的列标签（们）沿着水平的方向依次删掉「https://www.cnblogs.com/rrttp/p/8028421.html」】

6、series的add方法和加号不同，add可以保留全部数据，没有NaN。

7、series缺失值处理

有时数据缺失了，可以通过isnull()或notnull()函数判断是否缺失，我们可以通过布尔索引形式过滤掉NaN的数据。【https://blog.csdn.net/chenzhanhai/article/details/104598462】

8、如果DataFrame某一列的元素是numpy数组，那么将其保存到csv在读取后就会变成字符串，怎么解决？

【如：df = pd.read_csv("file.csv", dtype = {'patient_ID' : int}) 读取的时候设置为int整型】

9、目前只看了教程，没有运行做题，【练习题看，很详细https://blog.csdn.net/qq_42251120/article/details/105625982】

还可参考：

posted @ 2020-06-20 03:36 haiyanli 阅读(163) 评论(0) 编辑收藏举报

刷新页面返回顶部

haiyanli