pandas中的时间特征索引
时间特征索引
import pandas as pd
filepath = r"E:\Desktop\配套代码和数据集\配套代码和数据集\第3章:Pandas\Pandas代码\data\flowdata.csv"
df = pd.read_csv(filepath,index_col=0,parse_dates=True) #以时间特征我索引
df[pd.Timestamp("2012"):pd.Timestamp("2013")]
df["2013"]#选取年份
df["2012-1":"2013-03"]#选取时间间隔数据
#接下来试一试日期和小时能不能行?
df["2012-1-20":"2012-3-30"] #日期是可以的!!
df["2012-1-20 21:00:00":"2012-3-30 12:00:00"] #精确到时、分、秒也是可以的,要注意格式问题
df[(df.index.hour>8)&(df.index.hour<21)] #选取每天中在8~21点的数据
#resample函数
#原数据中每天都有好多数据,但想统计的是每天的平均指标
df.resample("D").mean().head() #求每天的平均指标
df.resample("3D").mean().head()#求每3天的平均指标
df.resample("M").min().head()#求每个月的最小值
df.resample("Y").max().head()#求每年的最大值
import pandas as pd
filepath = r"E:\Desktop\区分诊断前和诊断后.xlsx"
df = pd.read_excel(filepath,index_col=1,parse_dates=True) #在此处呢,试验了如果诊断时间(行索引中)存在空值的问题,发现当索引中有空值时
#会自动用NaT代替,并不影响操作结果
df[pd.Timestamp("2018-01-01"):pd.Timestamp("2019-01-10")]#不知道为啥这个怎么也实验不同,难受
记录学习的点点滴滴