pandas 数据处理实例

描述：行标签为日期，列标签为时间，表哥的值是 float 的数值
# 一、读取 csv 文件
df=pd.read_csv("delay_3.csv",encoding = "utf-8")
# 二、默认读取是行索引是 0 开始计数的，datestr 被作为文本读成了单元格数据，将datestr 转换成时间，并建立索引
# 2.1 要把 datestr 列转换成时间格式
df['datestr'] = pd.to_datetime(df['datestr'])
# 2.2 通过 set_index 重新设置新的列
df.set_index("datestr", inplace=True)
# 三、数据预处理，因为数据本身存在很多空白数据，空白数据是 - （减号）
# 3.1 转换数据为数字类型，转换错误的数据，自动填充为 NAN
df=df.apply(pd.to_numeric, errors='coerce')
# 3.2 通过填充命令将数据填充填充的规则是按照前一行，同一列进行填充
#print df.isnull().sum()
df=df.fillna(method='ffill')‘
# 查看下为仍然为 null 的数据数量
#print df.isnull().sum()
#四、通过切片进行访问，切出这些天，每天的这些时刻的数据
df['2018-01-08':'2018-01-15','06:00':'20:00']
#五、分行和分列进行聚集操作
# 5.1 按列（时段）聚集
df.mean()
# 5.2 按日期（行）聚集
df_new=df.T
df_new.mean()
# 5.3 所有的数据取一个平均值
df.mean().mean()

posted @ 2018-03-12 20:51 oftenlin 阅读(369) 评论(0) 收藏举报

刷新页面返回顶部

oftenlin

思考，前进...

pandas 数据处理实例

公告