摘要:
一、是什么? 1. 归一化 是为了将数据映射到0~1之间,去掉量纲的过程,让计算更加合理,不会因为量纲问题导致1米与100mm产生不同。 归一化是线性模型做数据预处理的关键步骤,比如LR,非线性的就不用归一化了。 归一化就是让不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。 缺点 阅读全文
摘要:
cum系列函数是作为DataFrame或Series对象的方法出现的,因此命令格式为D.cumsum() 举例: 1. cumsum 2. cumprod 3. cummax 4. cummin 参考文献: 【1】Pandas —— cum累积计算和rolling滚动计算 阅读全文
摘要:
六、移动窗口函数 移动窗口和指数加权函数类别如↓: rolling_mean 移动窗口的均值 pandas.rolling_mean(arg, window, min_periods=None, freq=None, center=False, how=None, **kwargs) rolling 阅读全文
摘要:
五、重采样与频率转换 1. resample方法 2. 降采样 (1)resample将高频率数据聚合到低频率 举例:已知:‘1分钟’数据,想要通过求和的方式将这些数据聚合到“5分钟”块中 left:[0:5)、[5:10)、[10-15) right :(0:5]、(5:10]、(10-15] 传 阅读全文
摘要:
python常用的处理时间的库有:datetime,time,calendar。datetime库包括了date(储存日期:(年、月、日),time(储存时间:(小时、分、秒和微秒),timedelta代表两个datetime之间的差(天、秒、微秒)。 一、datetime处理日期 datetime 阅读全文
摘要:
1. 字符串转成numpy.datetime64格式 2. numpy.datetime64转成字符串格式 3. np.arange生成时间序列 参考文献: 【1】【手把手教你】Python处理金融数据 阅读全文
摘要:
一、时间序列基础 1. 时间戳索引DatetimeIndex 生成20个DatetimeIndex 用这20个索引作为ts的索引 不同索引的时间序列之间的算术运算在日期上自动对齐 pandas使用numpy的datetime64数据类型在纳秒级的分辨率下存储时间戳 DatetimeIndex中的标量 阅读全文
摘要:
Python序列切片地址可以写为[开始:结束:步长],其中的开始和结束可以省略。 1. range(n)生成[0,n)区间整数 2. 开始start省略时,默认从第0项开始 3. 结尾省略的时候,默认到数组最后 4. 开始和结尾不省略的时候 5. 步长step=n;代表从start开始(start也 阅读全文
摘要:
Pandas库是处理时间序列的利器,pandas有着强大的日期数据处理功能,可以按日期筛选数据、按日期显示数据、按日期统计数据。 pandas的实际类型主要分为: timestamp(时间戳) period(时期) timedelta(时间间隔) 常用的日期处理函数有: pd.to_datetime 阅读全文
摘要:
1)在Anaconda Prompt终端中输入下面命令,查看你的notebook配置文件在哪里: 2)通过搜索关键词:c.NotebookApp.notebook_dir,定位到下面这行 然后修改成以下你自己的“notebook工作文件夹”,修改后记得保存文件。 注意要去掉这行前面的#(#在表示注释 阅读全文