2022综述

22年的综述最近读了3篇，总结笔记如下：

本期所有论文链接：2022综述 https://www.alipan.com/s/Y7YnnXjM3nn 点击链接保存，或者复制本段内容，打开「阿里云盘」APP ，无需下载极速在线查看，视频原画倍速播放。

（2022）Decision Fusion for Stock Market Prediction: A Systematic Review
评价：原文值得精读，质量高。混合模型有前景，但论文有75篇，可以结合自己喜好挑着看
一作是中国科学技术大学的，在马来西亚读博，作者说多模型融合决策比单模型预测强，但多模型融合决策方面的综述不多，所以有了这篇综述。
作者指出决策融合包含：数据融合、特征融合、决策融合，融合没有特定的方法。然后总结了每种预测模型的特色，总结目前各种决策融合的方法，并基于预测模型的结构进行分类，最后描述未来方向。作者找了642篇论文，过滤出75篇质量好的。

第4部分盘点了各学习器（就是混合模型中的每个模型，叫做一个learner）的特点：
混合模型中分两种情况（FIGURE 4对此作出了解释）：
1、不同模型用相同算法：
　　table 3 统计了分类任务中，各论文使用的算法；
　　table 4 统计了回归任务中，各论文使用的算法；
2、不同模型用不同算法：
　　table5分类任务的；
　　table6回归任务的；
FIGURE 5展示了2种任务的具体内容，table7、table8是相关统计。

第5部分盘点了混合模型的决策方法：
FIGURE 6展示了分类、回归的决策方法。其中Voting，tree-based（ref27表现最好）用的最多，FIGURE 7、8统计了各论文对不同决策方法的使用情况。

第6部分总结了混合模型的类型，有四种（FIGURE 9是他们的架构图）：
1) traditional ensemble。用的人最多且从2000年开始每年都在涨。每个learner生成完整预测
2) decomposition-based ensemble。2015年后开始流行，回归任务独有，每个learner生成部分预测
3) fusion models integrating auxiliary forecasting。1990年出现，把辅助的结果融合给主模型，比较小众。（辅助可以是model也可以不是，我觉得可以用fuzzy control试试）
4) two-stage ensemble。第一阶段的预测结果作为第二阶段的输入，比较小众。

展望：混合模型可以加入更多算法,如jump-diffusion model、GAN、GNN和capsule network,可以成为研究人员的未来方向；把情绪分析加入到决策融合来提升预测能力。

集成学习，能把准确率从65%提升到68%，而我传统的交易策略准确率80%，

ref
27
找最好的决策方法
36
深度网络需要大量数据，但金融数据有限，容易过拟合，因此用集成学习解决这个问题，
作者只用了3个股票，每个3500*4的训练数据。
三个股票各自训练效果都很强
选不同股票，是为了让每个学习器差异尽量大
这里用数据交叠，也是为了各学习器有差异，但又不能太大
文章通俗易懂，讲的很清楚
39
13个learner预测明天价格，如果比今天高记为1，低记为0，作为分类。
通过rank给13个learner打分，选出前5个，作为最终的learner
通过Crow Search给这5个learner确定权重，然后通过权重投票得到输出为1或0，代表明天涨跌
44
在训练时，给每个样本一个label，buy或sell，那这相当于知道未来几天会涨，所以今天的label是buy，每天都buy，直到跌，如果震荡频率高就麻烦了
46
先讲用到的base leaner 最后讲ensemble方法
所有的base leaner先预测出各自的价格，然后组成个序列给一个分类器，这样大家一起训练，结果就是，各个leaner准确率65%，ensemble准确率68%
这里用交叉验证，跟36一样也是为了让每个学习器差异尽量大
49
训练集是750天的数据，选了标普500的股票，也就是 750*500 = 375000 条样本
抽取特征：用当前价格，和过去一个月内每天的价格，过去11个月每个月的价格，共32个价格，分别计算回报率
所以输入是 375000 * 32 矩阵
输出是分类，0或1，作者模仿了2013年一篇论文的方法，如果明天的价格，大于32个回报率（就是特征）的中位数，说明要涨，分类为1，否则为0

论文链接：

Decision_Fusion_for_Stoc...ystematic_Review https://www.alipan.com/s/Nfb4KjoKik4 点击链接保存，或者复制本段内容，打开「阿里云盘」APP ，无需下载极速在线查看，视频原画倍速播放。

（2022）A comprehensive review on multiple hybrid deep learning approaches for stock prediction
评价：原文值得精读，作者提炼出了论文精华，能让读者对模型的具体算法、处理流程有详细了解，并直接指导实践。
印度的，作者能简要讲出历史论文的亮点，省得自己看论文了。
盘点了4种主流应用的效果对比、原理、历年来部分paper的结果，评估性能用RMSE（ root mean square error）, MAPE, MAE，MSE等。

1，Autoregressive Integrated Moving Average (ARIMA)
人们对于时序数据进行统计分析时，数据得是平稳的，比如均值方差啥的不能变，但现实里它会变，ARIMA就是用来解决非平稳性的。
1997年提出，Fig1 是它的流程图，Fig2是算法示意图 19年、21年的几篇可以看看，19年Roy那篇预测准确率达到90%

2、LSTM，Fig3,4是模型图和流程图， Fig5是算法图。结论说这个比ARIMA强很多。

3、CNN。这个主要讲 CNN-LSTM。输入信号（买卖信号），用卷积层提取特征，池化层降低kernel数，flatten layer把所有特征转为单维向量，把单位向量作为输入传给LSTM层，Fig6是流程图,Fig7是模型图，Fig8是算法示意图。
（李沐的课里提到过CNN处理序列就是把数据看成1维向量处理，不同特征看作通道（这怎么看？可能意思是不同特征的数据，比如10天的收盘价（10,1）的一维向量，10天的某个指标值又是个(10,1) 一维向量）
后来陆续出现了：2020 CNN-BiLSTM-AM，2021 CEEMD-CNN-LSTM，CNN比其他网络更能capture rapid changes，2021 GC–CNN，2021 one dimensional CNN，2020 基于reinforcement learning并用CNN提取特征用于量化风险，2021 Hybrid of CNN-TLSTM (tanh-LSTM) 比单个模型强，回撤小，也是CNN提取特征。

4、情绪分析
NLP分析文本情绪（我试试用模糊理论情绪分类？比如小乐观、中乐观、大乐观，或用注意力去分析文本情绪），Fig9是流程图。

作者在结论总结了一下：LSTM and Hybrid LSTM 预测价格更好， CNN and Hybrid CNN预测趋势更好，CNN-LSTM Hybrid适合资产组合，hybrid CNN and LSTM适合做日内高频。

zhaot1993

2022综述

公告