强化学习投资组合管理Portofolio Management
前言
投资组合管理是将资金不断分配到不同的金融产品,以期获得更大累计收益的过程。
在证券组合投资管理中,深度强化学习主要的作用是利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,提升强化学习模型性能,实现资产组合权重再更新。
PGPortofolio论文(2017)
1. 论文摘要
- 同时都用神经网络训练策略函数和奖励函数导致结果不稳定
- 文章测试虚拟货币市场。因为其'去中心化',小量交易庞大;以及全天开放。实验中交易周期是 30 分钟。
- 文章使用CNN/RNN/LSTM作为策略网络,效果良好
- EIIE的结构不训练单个Asset
- 缺失/异常值会被Agent记忆,因此需要平滑填充
- Sub-sampling scheme:选择Asset(满足购买影响假设);周期特征抽取(OHLC);History cut-off(短时间price特征代表State)
2.论文实现
- Ensemble of Identical Independent Evaluators (EIIE) topology:根据历史数据评估潜在价值。输出重要性权重作为下一次输入。
- Portfolio Vector Memory (PVM):保存投资组合权重。
- Online Stochastic Batch Learning scheme (OSBL)在线随机批学习:训练EIIE。
- 奖励函数:平均阶段的对数回报指标(梯度上升更新)
3. 数学理论
- 第一个asset是报价通货,即现金标准(Cash bias),其值为1;只在softmax计算权重时作用
- 权重的更新:旧权重与回报比率(收盘/开盘)的加权
- 收益pv
4. 强化学习
- State:价格向量 和 上一次的投资权重
- 策略网络:输入price tensor,输出权重portofolio vector w.
- RNN/LSTM使用PVM保存历史做批次训练——>速度慢
5.模型
CNN Implementation of the EIIE:
RNN/LSTM Implementation of the EIIE:
Portfolio Vector Memory(PVM):
AlphaStock论文(2019)
AlphaPortfolio论文(2021)
Motivation:对于传统的投资组合管理,首先需要最小化定价误差或从历史样本中估计风险溢价,然后组合资产以实现投资目标。这种方法有严重的缺点,因为第一步的估计误差很大,而且两步的目标不一定一致。提取与投资组合目标并最大化直接相关的信号在直觉上很有吸引力,但却没有得到充分的探索。
模型构成:
- 序列表示提取模型(sequence representation extraction models, SREM):文中使用Transformer Encoder
- 跨资产注意力网络(CrossAsset Attention Network,CAAN):将所有资产的表征作为输入,以提取捕捉资产之间相互关系的表征
SREM
CAAN架构:自注意机制
其将收益和线性层相乘
DeepTrader论文(2021)
前言:继承了alphastock的问题设定和BWSL策略框架,使用了市场因子计算市场行业情绪,来控制空仓的资金分配;对股票的时间特征抓取和股票之间空间相关性的抓取上仍然使用attention机制,不过还加入TCN、GCN等使得计算更快、性能更好。
DeepTrader的算法一共包括上面的绿色、蓝色、紫色三部分,对应的是股票打分、市场情绪、投资组合生成器。整个算法流程就是股票打分器(绿色部分)对股票的涨跌潜力打分并给出投资组合占比,而市场打分器(蓝色部分)分配空头资金量,二者结合一下就是最后的投资组合(紫色部分)。
Automatic Financial Trading Agent for Low-risk Portfolio Management using Deep Reinforcement Learning (2019)
- DQN网络实现18倍回报,PAMR作为benchmark实现9倍回报
Reinforcement-Learning Based Portfolio Management with Augmented Asset Movement Prediction States (2020, AAAI)
投资组合管理是一项基本的财务计划任务,旨在实现诸如最大利润或最小风险等投资目标。其决策过程涉及从各种数据源不断推导有价值的信息和顺序决策优化,这是强化学习的一个前瞻性研究方向。本文提出了 SARL,这是一种用于投资组合管理的新型状态增强强化学习框架。
Contributions解决的问题:
- 数据异构性。为每项资产收集的信息通常是多样化的、嘈杂的和不平衡的(例如,新闻文章);
- 环境不确定性。金融市场是多面且不稳定的。合并异构数据并增强对环境不确定性的稳健性,SARL 将价格变动预测作为附加状态来增强资产信息,其中预测可以仅基于财务数据(例如,资产价格)或来自新闻等替代来源。
推荐阅读
PGPortofolio解读
AlphaPortfolio论文解读
AlphaPortfolio代码实现
SARL论文解读
AlphaStock论文
DeepTrader论文
总结类文章
本文作者:Rayinfos
本文链接:https://www.cnblogs.com/rayinfos/p/16488918.html
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步