Pandas中数据的处理

有两种丢失数据

——None

——np.nan(NaN)

None是python自带的，其类型为python object。因此，None不能参与到任何计算中

Object类型的运算比int类型的运算慢的多

计算不同数据类型求和时间

%timeit np.arange(1e5,dtype=xxx).sum()

%timeit是指python表达式或语句的执行时间

Pandas中的none与np.nan都视作np.nan

数据清洗

df.loc[index,column] ------>元素索引，肯定可以修改

df[column][index] --------->列是属性，肯定可以修改

df.loc[index][column] ----->从df中取出了样本，对取出来的数据进行了修改，原数据没变

现获取列，在获取行

如：df["python"][3] = np.nan

先获取行，再获取列

df.loc[3]["python"] = np.nan

先获取行，是将样本数据取出来，在内存中的内存地址就不一样了，修改数据失败

df.loc[3,5] =np.nan

Pandas中None与np.NaN的操作

Isnull():判断是否有空数据

Notnoll()：判断是否没有空数据

Dropna():过滤丢失数据

Fillna():填充丢失数据

（1）判断函数Isnull()和Notnull()

查找空数据

如：cond=df.isnull().any(axis=1)

df[cond]

过滤掉空数据

如：cond = df.notnull().all(axis=1)

df[cond]

（2）过滤函数Dropna()

如：df.dropna()，删除df表中的含有空数据的样本

可以选则过滤的是行还是列（默认过滤行）

也可以选择过滤的方式how=“all”

（3）数据填充fillna()

Fillna()属性

['value=None', 'method=None', 'axis=None', 'inplace=False', 'limit=None', 'downcast=None', '**kwargs']

对浮点数小数位数进行限定

pd.set_option("display.float_format",lambda x:"%0.1f"%(x)) #保留一位为%0.1，保留两位为%0.2，以此类推

注意：

1.对于空数据，一般进行填充时填充该列的平均值、中位数、众数进行填充。

2.对于和是用什么数据进行填充还得根据实际情况来决定

3.正态分布使用平均值和中位数差别不大。

**计算平均数的用mean（）

如：value=df.mean()

df.fillna(value)

**计算中位数用：median()

如：value1 = df.median()

df.fillna(value1)

填充数据可选择行方向和列方向的向前填充或是向后填充

df.fillna(method="bfill",axis=1)#向后填充

df.fillna(method="ffill",axis=1) #向前填充

df.fillna(value=values,limit=1) #限制填充的行数，默认从第一行开始

**统计众数：np.unique(s)

使用众数进行填充同上

Pandas中文件的读取和写入

将数据存储到csv格式的文本

s1.to_csv("./data1.csv",sep=',',index = False)

#存成csv格式，csv就是txt格式，用逗号进行分割，index表示是否将索引也存储进去

#注意重点是sep分隔符和index索引的设置

将csv格式的文本数据导入到jupyter中

如：pd.read_csv("./data1.csv")

将数据存储成html格式

s3.to_html("./data.html")

pd.read_excel(“./data.htm”)

将文件存储成json格式

s3.to_json("./data.json")

pd.read_json("./data.json")

将文件存储成excel格式的文件

s3.to_excel("./data.xls")

pd.read_excel("./data.xls")

有两种丢失数据

——None

——np.nan(NaN)

None是python自带的，其类型为python object。因此，None不能参与到任何计算中

Object类型的运算比int类型的运算慢的多

计算不同数据类型求和时间

%timeit np.arange(1e5,dtype=xxx).sum()

%timeit是指python表达式或语句的执行时间

Pandas中的none与np.nan都视作np.nan

数据清洗

df.loc[index,column] ------>元素索引，肯定可以修改

df[column][index] --------->列是属性，肯定可以修改

df.loc[index][column] ----->从df中取出了样本，对取出来的数据进行了修改，原数据没变

现获取列，在获取行

如：df["python"][3] = np.nan

先获取行，再获取列

df.loc[3]["python"] = np.nan

先获取行，是将样本数据取出来，在内存中的内存地址就不一样了，修改数据失败

df.loc[3,5] =np.nan

Pandas中None与np.NaN的操作

Isnull():判断是否有空数据

Notnoll()：判断是否没有空数据

Dropna():过滤丢失数据

Fillna():填充丢失数据

（1）判断函数Isnull()和Notnull()

查找空数据

如：cond=df.isnull().any(axis=1)

df[cond]

过滤掉空数据

如：cond = df.notnull().all(axis=1)

df[cond]

（2）过滤函数Dropna()

如：df.dropna()，删除df表中的含有空数据的样本

可以选则过滤的是行还是列（默认过滤行）

也可以选择过滤的方式how=“all”

（3）数据填充fillna()

Fillna()属性

['value=None', 'method=None', 'axis=None', 'inplace=False', 'limit=None', 'downcast=None', '**kwargs']

对浮点数小数位数进行限定

pd.set_option("display.float_format",lambda x:"%0.1f"%(x))

对于空数据，一般进行填充时填充该列的平均值、中位数、众数进行填充。

对于和是用什么数据进行填充还得根据实际情况来决定

正态分布使用平均值和中位数差别不大。

**计算平均数的用mean（）

如：value=df.mean()

df.fillna(value)

**计算中位数用：median()

如：value1 = df.median()

df.fillna(value1)

填充数据可选择行方向和列方向的向前填充或是向后填充

df.fillna(method="bfill",axis=1)#向后填充

df.fillna(method="ffill",axis=1) #向前填充

df.fillna(value=values,limit=1) #限制填充的行数，默认从第一行开始

**统计众数：np.unique(s)

使用众数进行填充同上

Pandas中文件的读取和写入

将数据存储到csv格式的文本

s1.to_csv("./data1.csv",sep=',',index = False)

#存成csv格式，csv就是txt格式，用逗号进行分割，index表示是否将索引也存储进去

#注意重点是sep分隔符和index索引的设置

将csv格式的文本数据导入到jupyter中

如：pd.read_csv("./data1.csv")

将数据存储成html格式

s3.to_html("./data.html")

pd.read_excel(“./data.htm”)

将文件存储成json格式

s3.to_json("./data.json")

pd.read_json("./data.json")

将文件存储成excel格式的文件

s3.to_excel("./data.xls")

pd.read_excel("./data.xls")

posted @ 2019-01-11 20:41 石桥浪子阅读(2243) 评论(0) 编辑收藏举报

刷新页面返回顶部