datawhale AI夏令营AI+经济task3

Task3:进阶上分方向讨论

特征工程详细解析

特征工程是机器学习预处理过程的核心部分,关注从原始数据中提取和构建新特征以优化模型的表现。其核心目的在于通过精心选择和创新性构建特征,从而让模型更有效地解析数据并准确预测目标变量。

时间序列特征构造详解

时间序列数据的特征构造尤为关键,因为这直接关系到模型的预测能力。以下是几种高效的特征提取方法:

  1. 时间戳特征:从时间戳中细化提取年、月、日等信息。
  2. 历史信息特征:例如,计算过去n期的同一日期的数据均值和标准差。
  3. 滞后特征:数据的时间平移,如使用上周同一时间的数据作参考。
  4. 滑窗特征:计算过去一定周期(如7天、14天等)的统计量,包括均值、最大值、最小值等。
  5. 周期性特征:利用三角函数将时间戳映射为周期性数值。
  6. 异常值特征:基于统计原理(如3σ原则)检测并利用异常值。
  7. 节假日及外部数据:将公共假期和其他外部事件作为模型输入。

时间序列预测的深度分析

时间序列预测的成功依赖于精确而有力的特征提取:

  • 周期性和趋势性识别:通过分析周期性和趋势性,模型可以捕捉到数据的内在规律。
  • 时间差特征:特定日期(如节假日、促销日)到当前日期的距离,有助于模型评估时间效应。
  • 组合时间特征:将不同时间单位组合(如月-日,年-周)提供更多上下文。
  • 特殊日期处理:特殊事件带来的数据波动,需要模型特别识别和学习。

时间序列挖掘 时间特征: 根据之前的分析,具体会挖掘以下特征: 根据月份信息,判断是否为风季(1-5月和9-12月) 根据小时信息,判断是否为低谷时段(10-15点) 判断训练数据的索引是否在春节日期列表中 断训练数据的索引是否在劳动节日期列表中 这是因为,基于季节、时间的天气变化会影响光伏发电的发电量, 进而使火力发电有更好,或者更差的市场需求。 而节假日期间,火力发电往往会产生负电价,在五一、春节期间 尤为明显。 总体而言,是为了找出对结果有显著影响的特征, 为此,还会构筑更多特征,例如demand的滞后特征,差分特征,百分比特征等。 考虑到新能源,即光伏发电会在未来占据更多市场,还会对结果进行整体缩放。 ABM报价策略优化 报价机制: 在Task2中我们分析过,实际上的报价会根据现实情况进行变动,而非不变的。 分析总结下来,市场需求低的时候,机组会降低报价,避免无法中标; 而市场需求高的时候,机组会提高报价,以求得到更高收益。 强化学习 强化学习的几个要素包括状态、动作、奖励和策略。其中,对于这个题目而言,状态空间连续,动作主要是出价的方式。这里想要训练一个好的强化学习模型,更重要的是设计好的奖励函数和策略,使得每一次训练的出价策略能够有恰到好处的收益。这需要一定的实践经验。 在一个强化学习环境里面,智能体的目的就是选取一系列的动作来最大化奖励,所以这些选取的动作必须有长期的影响。也就是说,智能体在决策中的每一步累计起来,最后形成了交易中的好结果与坏结果,这是个序列决策。整个决策的状态本质上是一个关于其历史的函数。

特征优化策略

在此阶段,重点是构建如下几类特征以提高预测精度:

  • 历史平移特征:利用过去阶段的数据来预测未来。
  • 差分特征:分析相邻时间点之间的变化,捕捉趋势和周期性。
  • 窗口统计特征:基于不同窗口期的统计数据,如均值、方差等,反映最近的数据趋势。

未来方向与总结

时间序列预测领域正在迅速发展,我们期待未来在模型结构、数据融合、模型解释性等方面的进一步优化。特别是深度学习技术,如长短期记忆网络(LSTM)及其变种,已经在众多应用场景中展现出卓越性能。

posted @   叶谨之  阅读(14)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示