Pandas 空值数据的索引 位置 行号

前言

先说一下什么是pandas, 这个东西其实就是一个处理表格数据的一个库。可以把它看做是一个没有图形化界面的Excel。

Pandas中的空值是非常多的,这体现了数据搜集的一个不可避免的方面。由于某些不可抗力的原因,例如用户授权,数据源数据格式的不同,会造成许多空值零散的遍布在数据中的各个角落。

Pandas提供了 .isnull().notnull() 两个函数来处理空值问题。

不过他们只能按照索引的顺序依次给出 某一数据是否为空的判断。True False。由于数据显示折叠的问题,在数万条数据中寻找空值非常困难。

问题

由于数据显示折叠的问题,在数万条数据中寻找空值非常困难。

[1]: temp  = data['parameter'].apply(find_medi)

[2]: temp.isnull().sum()
Out[2]: 10935

[3]: temp.isnull()
Out[3]:
0        False
1        False
2        False
3        False
4        False
         ...  
75105    False
75106    False
75107    False
75108    False

解决

temp.loc[temp.isnull().values]

使用 temp.isnull().values返回的Ture False array传递给 loc[] 函数就可以将值为 True 的数据提取出来,也就是空数据,顺带着行号index

[4]:temp.isnull().values
Out[4]: array([False, False, False, ..., False, False, False])

[5]: temp.loc[temp.isnull().values]
Out[5: 
56       None
132      None
145      None
150      None
154      None
         ... 
75011    None
75018    None
75057    None
75064    None
75078    None
Name: parameter, Length: 10935, dtype: object
posted @ 2022-12-31 19:45  Dba_sys  阅读(393)  评论(0编辑  收藏  举报