1. 四类时间变量
现在理解可能关于③和④有些困惑,后面会作出一些说明
名称
描述
元素类型
创建方式
① Date times(时间点/时刻)
描述特定日期或时间点
Timestamp
to_datetime或date_range
② Time spans(时间段/时期)
由时间点定义的一段时期
Period
Period或period_range
③ Date offsets(相对时间差)
一段时间的相对大小(与夏/冬令时无关)
DateOffset
DateOffset
④ Time deltas(绝对时间差)
一段时间的绝对大小(与夏/冬令时有关)
Timedelta
to_timedelta或timedelta_range
2. 时间点的创建
(a)to_datetime方法
Pandas在时间点建立的输入格式规定上给了很大的自由度,下面的语句都能正确建立同一时间点
下面的语句都会报错
同时,使用列表可以将其转为时间点索引
对于DataFrame而言,如果列已经按照时间顺序排好,则利用to_datetime可自动转换
(b)时间精度与范围限制
事实上,Timestamp的精度远远不止day,可以最小到纳秒ns
同时,它带来范围的代价就是只有大约584年的时间点是可用的
(c)date_range方法
一般来说,start/end/periods(时间点个数)/freq(间隔方法)是该方法最重要的参数,给定了其中的3个,剩下的一个就会被确定
其中freq参数有许多选项,下面将常用部分罗列如下,更多选项可看这里
符号
D/B
W
M/Q/Y
BM/BQ/BY
MS/QS/YS
BMS/BQS/BYS
H
T
S
描述
日/工作日
周
月末
月/季/年末日
月/季/年末工作日
月/季/年初日
月/季/年初工作日
小时
分钟
bdate_range是一个类似与date_range的方法,特点在于可以在自带的工作日间隔设置上,再选择weekmask参数和holidays参数
它的freq中有一个特殊的'C'/'CBM'/'CBMS'选项,表示定制,需要联合weekmask参数和holidays参数使用
例如现在需要将工作日中的周一、周二、周五3天保留,并将部分holidays剔除
3. DateOffset对象
(a)DataOffset与Timedelta的区别
Timedelta绝对时间差的特点指无论是冬令时还是夏令时,增减1day都只计算24小时
DataOffset相对时间差指,无论一天是23\24\25小时,增减1day都与当天相同的时间保持一致
例如,英国当地时间 2020年03月29日,01:00:00 时钟向前调整 1 小时 变为 2020年03月29日,02:00:00,开始夏令时
这似乎有些令人头大,但只要把tz(time zone)去除就可以不用管它了,两者保持一致,除非要使用到时区变换
(b)增减一段时间
DateOffset的可选参数包括years/months/weeks/days/hours/minutes/seconds
(c)各类常用offset对象
freq
D/B
W
(B)M/(B)Q/(B)Y
(B)MS/(B)QS/(B)YS
H
T
S
C
offset
DateOffset/BDay
Week
(B)MonthEnd/(B)QuarterEnd/(B)YearEnd
(B)MonthBegin/(B)QuarterBegin/(B)YearBegin
Hour
Minute
Second
CDay(定制工作日)
(d)序列的offset操作
利用apply函数
直接使用对象加减
定制offset,可以指定weekmask和holidays参数(思考为什么三个都是一个值)
1. 索引切片
这一部分几乎与第二章的规则完全一致
合法字符自动转换为时间点
2. 子集索引
支持混合形态索引
3. 时间点的属性
采用dt对象可以轻松获得关于时间的信息
利用strftime可重新修改时间格式
对于datetime对象可以直接通过属性获取信息
Int64Index ([ 1 , 1 , 1 , 1 , 2 , 2 , 2 , 2 , 3 , 3 , 3 , 3 , 3 , 4 , 4 , 4 , 4 ,
5 , 5 , 5 , 5 , 5 , 6 , 6 , 6 , 6 , 7 , 7 , 7 , 7 , 8 , 8 , 8 , 8 ,
8 , 9 , 9 , 9 , 9 , 10 , 10 , 10 , 10 , 11 , 11 , 11 , 11 , 11 , 12 , 12 , 12 ,
12 ],
dtype = 'int64' )
Int64Index ([ 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 ,
6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 ,
6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 ],
dtype = 'int64' )
所谓重采样,就是指resample函数,它可以看做时序版本的groupby函数
1. resample对象的基本操作
采样频率一般设置为上面提到的offset字符
A
B
C
2020-01-01 00:00:00
-8.772685
-27.074716
2.134617
2020-01-01 00:03:00
3.822484
8.912459
-15.448955
2020-01-01 00:06:00
2.744722
-8.055139
-11.364361
2020-01-01 00:09:00
4.655620
-11.524496
-10.536002
2020-01-01 00:12:00
-10.546811
5.063887
11.776490
2020-01-01 00:15:00
8.795150
-12.828809
-8.393950
A
B
C
2020-01-01
5.278470
1.688588
5.904806
2020-02-03
-3.581797
7.515267
0.205308
2020-03-02
-5.021605
-4.441066
5.433917
2020-04-01
0.671702
3.840042
4.922487
2020-05-01
4.613352
9.702408
-4.928112
2020-06-01
-0.598191
7.387416
8.716921
2020-07-01
-0.327200
-1.577507
-3.956079
2. 采样聚合
sum
mean
std
2020-01-01 00:00:00
-8.772685
-0.048737
0.939954
2020-01-01 00:03:00
3.822484
0.021236
1.004048
2020-01-01 00:06:00
2.744722
0.015248
1.018865
2020-01-01 00:09:00
4.655620
0.025865
1.020881
2020-01-01 00:12:00
-10.546811
-0.058593
0.954328
2020-01-01 00:15:00
8.795150
0.087952
1.199379
类似地,可以使用函数/lambda表达式
A
B
2020-01-01 00:00:00
-8.772685
4.950006
2020-01-01 00:03:00
3.822484
5.711679
2020-01-01 00:06:00
2.744722
6.923072
2020-01-01 00:09:00
4.655620
6.370589
2020-01-01 00:12:00
-10.546811
4.544878
2020-01-01 00:15:00
8.795150
5.244546
3. 采样组的迭代
采样组的迭代和groupby迭代完全类似,对于每一个组都可以分别做相应操作
下面主要介绍pandas中两类主要的窗口(window)函数:rolling/expanding
1. Rolling
(a)常用聚合
所谓rolling方法,就是规定一个窗口,它和groupby对象一样,本身不会进行操作,需要配合聚合函数才能计算结果
min_periods参数是指需要的非缺失数据点数量阀值
(b)rolling的apply聚合
使用apply聚合时,只需记住传入的是window大小的Series,输出的必须是标量即可,比如如下计算变异系数
(c)基于时间的rolling
可选closed='right'(默认)'left''both''neither'参数,决定端点的包含情况
2. Expanding
(a)expanding函数
普通的expanding函数等价与rolling(window=len(s),min_periods=1),是对序列的累计计算
apply方法也是同样可用的
(b)几个特别的Expanding类型函数
cumsum/cumprod/cummax/cummin都是特殊expanding累计计算方法
shift/diff/pct_change都是涉及到了元素关系
①shift是指序列索引不变,但值向后移动
②diff是指前后元素的差,period参数表示间隔,默认为1,并且可以为负
③pct_change是值前后元素的变化百分比,period参数与diff类似
【问题一】 如何对date_range进行批量加帧操作或对某一时间段加大时间戳密度?
【问题二】 如何批量增加TimeStamp的精度?
【问题三】 对于超出处理时间的时间点,是否真的完全没有处理方法?
【问题四】 给定一组非连续的日期,怎么快速找出位于其最大日期和最小日期之间,且没有出现在该组日期中的日期?
【练习一】 现有一份关于某超市牛奶销售额的时间序列数据,请完成下列问题:
(a)销售额出现最大值的是星期几?(提示:利用dayofweek函数)
(b)计算除去春节、国庆、五一节假日的月度销售总额
(c)按季度计算周末(周六和周日)的销量总额
(d)从最后一天开始算起,跳过周六和周一,以5天为一个时间单位向前计算销售总和
(e)假设现在发现数据有误,所有同一周里的周一与周五的销售额记录颠倒了,请计算2018年中每月第一个周一的销售额(如果该周没有周一或周五的记录就保持不动)
日期
销售额
0
2017/2/17
2154
1
2017/2/18
2095
2
2017/2/19
3459
3
2017/2/20
2198
4
2017/2/21
2413
【练习二】 继续使用上一题的数据,请完成下列问题:
(a)以50天为窗口计算滑窗均值和滑窗最大值(min_periods设为1)
(b)现在有如下规则:若当天销售额超过向前5天的均值,则记为1,否则记为0,请给出2018年相应的计算结果
(c)将(c)中的“向前5天”改为“向前非周末5天”,请再次计算结果
__EOF__
作 者 :Hichens 出 处 :https://www.cnblogs.com/hichens/p/13285701.html 关于博主 :莫得感情的浅度学习机器人版权声明 :@Hichens声援博主 :如果您觉得文章对您有帮助,可以点击文章右下角【推荐 】 一下。您的鼓励是博主的最大动力!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人