2022综述
22年的综述最近读了3篇,总结笔记如下:
本期所有论文链接:2022综述 https://www.alipan.com/s/Y7YnnXjM3nn 点击链接保存,或者复制本段内容,打开「阿里云盘」APP ,无需下载极速在线查看,视频原画倍速播放。
(2022)Decision Fusion for Stock Market Prediction: A Systematic Review
评价:原文值得精读,质量高。混合模型有前景,但论文有75篇,可以结合自己喜好挑着看
一作是中国科学技术大学的,在马来西亚读博,作者说多模型融合决策比单模型预测强,但多模型融合决策方面的综述不多,所以有了这篇综述。
作者指出决策融合包含:数据融合、特征融合、决策融合,融合没有特定的方法。然后总结了每种预测模型的特色,总结目前各种决策融合的方法,并基于预测模型的结构进行分类,最后描述未来方向。作者找了642篇论文,过滤出75篇质量好的。
第4部分盘点了各学习器(就是混合模型中的每个模型,叫做一个learner)的特点:
混合模型中分两种情况(FIGURE 4对此作出了解释):
1、不同模型用相同算法:
table 3 统计了分类任务中,各论文使用的算法;
table 4 统计了回归任务中,各论文使用的算法;
2、不同模型用不同算法:
table5分类任务的;
table6回归任务的;
FIGURE 5展示了2种任务的具体内容,table7、table8是相关统计。
第5部分盘点了混合模型的决策方法:
FIGURE 6展示了分类、回归的决策方法。其中Voting,tree-based(ref27表现最好)用的最多,FIGURE 7、8统计了各论文对不同决策方法的使用情况。
第6部分总结了混合模型的类型,有四种(FIGURE 9是他们的架构图):
1) traditional ensemble。 用的人最多且从2000年开始每年都在涨。每个learner生成完整预测
2) decomposition-based ensemble。2015年后开始流行,回归任务独有,每个learner生成部分预测
3) fusion models integrating auxiliary forecasting。1990年出现,把辅助的结果融合给主模型,比较小众。(辅助可以是model也可以不是,我觉得可以用fuzzy control试试)
4) two-stage ensemble。第一阶段的预测结果作为第二阶段的输入,比较小众。
展望:混合模型可以加入更多算法,如jump-diffusion model、GAN、GNN和capsule network,可以成为研究人员的未来方向;把情绪分析加入到决策融合 来提升预测能力。
集成学习,能把准确率从65%提升到68%,而我传统的交易策略准确率80%,
ref
27
找最好的决策方法
36
深度网络需要大量数据,但金融数据有限,容易过拟合,因此用集成学习解决这个问题,
作者只用了3个股票,每个3500*4的训练数据。
三个股票各自训练效果都很强
选不同股票,是为了让每个学习器差异尽量大
这里用数据交叠,也是为了各学习器有差异,但又不能太大
文章通俗易懂,讲的很清楚
39
13个learner预测明天价格,如果比今天高记为1,低记为0,作为分类。
通过rank给13个learner打分,选出前5个,作为最终的learner
通过Crow Search给这5个learner确定权重,然后通过权重投票得到输出为1或0,代表明天涨跌
44
在训练时,给每个样本一个label,buy或sell,那这相当于知道未来几天会涨,所以今天的label是buy,每天都buy,直到跌,如果震荡频率高就麻烦了
46
先讲用到的base leaner 最后讲ensemble方法
所有的base leaner先预测出各自的价格,然后组成个序列给一个分类器,这样大家一起训练,结果就是,各个leaner准确率65%,ensemble准确率68%
这里用交叉验证 ,跟36一样也是为了让每个学习器差异尽量大
49
训练集是750天的数据,选了标普500的股票,也就是 750*500 = 375000 条样本
抽取特征:用当前价格,和过去一个月内每天的价格,过去11个月每个月的价格,共32个价格,分别计算回报率
所以输入是 375000 * 32 矩阵
输出是分类,0或1,作者模仿了2013年一篇论文的方法,如果明天的价格,大于32个回报率(就是特征)的中位数,说明要涨,分类为1,否则为0
论文链接:
Decision_Fusion_for_Stoc...ystematic_Review https://www.alipan.com/s/Nfb4KjoKik4 点击链接保存,或者复制本段内容,打开「阿里云盘」APP ,无需下载极速在线查看,视频原画倍速播放。
(2022)A comprehensive review on multiple hybrid deep learning approaches for stock prediction
评价:原文值得精读,作者提炼出了论文精华,能让读者对模型的具体算法、处理流程有详细了解,并直接指导实践。
印度的,作者能简要讲出历史论文的亮点,省得自己看论文了。
盘点了4种主流应用的效果对比、原理、历年来部分paper的结果,评估性能用RMSE( root mean square error), MAPE, MAE,MSE等。
1,Autoregressive Integrated Moving Average (ARIMA)
人们对于时序数据进行统计分析时,数据得是平稳的,比如均值方差啥的不能变,但现实里它会变,ARIMA就是用来解决非平稳性的。
1997年提出,Fig1 是它的流程图,Fig2是算法示意图 19年、21年的几篇可以看看,19年Roy那篇预测准确率达到90%
2、LSTM,Fig3,4是模型图和流程图, Fig5是算法图。 结论说这个比ARIMA强很多。
3、CNN。这个主要讲 CNN-LSTM。 输入信号(买卖信号),用卷积层提取特征,池化层降低kernel数,flatten layer把所有特征转为单维向量,把单位向量作为输入传给LSTM层,Fig6是流程图,Fig7是模型图,Fig8是算法示意图。
(李沐的课里提到过CNN处理序列就是把数据看成1维向量处理,不同特征看作通道(这怎么看?可能意思是不同特征的数据,比如10天的收盘价(10,1)的一维向量,10天的某个指标值又是个(10,1) 一维向量)
后来陆续出现了:2020 CNN-BiLSTM-AM,2021 CEEMD-CNN-LSTM,CNN比其他网络更能capture rapid changes,2021 GC–CNN,2021 one dimensional CNN,2020 基于reinforcement learning并用CNN提取特征用于量化风险,2021 Hybrid of CNN-TLSTM (tanh-LSTM) 比单个模型强,回撤小,也是CNN提取特征。
4、情绪分析
NLP分析文本情绪(我试试用模糊理论情绪分类?比如小乐观、中乐观、大乐观,或用注意力去分析文本情绪),Fig9是流程图。
作者在结论总结了一下:LSTM and Hybrid LSTM 预测价格更好, CNN and Hybrid CNN预测趋势更好,CNN-LSTM Hybrid适合资产组合,hybrid CNN and LSTM适合做日内高频。
相关论文链接
A comprehensive review o...rning approaches https://www.alipan.com/s/vMbSvCNbCMF 点击链接保存,或者复制本段内容,打开「阿里云盘」APP ,无需下载极速在线查看,视频原画倍速播放。
(2022)Algorithmic Trading and Cryptocurrency-a literature review and key findings
评价:原文不值得看
只讲了交易算法在加密货币领域的应用现状,比如谁把数据挖掘用在了加密货币,给个论文链接,高频交易在加密币上比较受限,给个论文链接,就只粗浅地描述历史,没有亮点。
-------------正文结束-------------
我的研究方向是机器学习在金融预测领域的应用,啃论文是体力活,大家资源共享能少走弯路,
我筛选出的所有论文及代码链接,都放在公众号-想啃论文了,
里面还有我开发的机器人,用于实盘验证论文策略,并输出交易信号,大家可免费使用,仅供科研交流。