GAN能进行股票预测吗?
机器学习是未能完全解决的一个领域是股票预测,因为它可能是最有利可图的研究领域之一所以在这方面的研究仍然在继续。投资者希望能够放心地把钱投在表现优异的公司,随着投资的增加,公司的发展也将会突飞猛进,投资的收益也会增长。
在过去的研究中,出现了而很多的方式,但这些方式和方法并不是很成功,所以本文将这个领域的研究扩展到GANs。看看GANs这个领域是否能够进行预测。
虽然kaggle中的预测JPX市场预测是一个非常好的数据集,但是他的数据集需要在kaggle上进行预测和提交,所以这里使用使用他的子集并且指定针对于本文测试的指标进行测试,这样可以显示出我们这次研究的真正表现。
在真正开始之前首先将为所有模型实现相同的预处理方法和评分指标。然后从一个预期性能较差的线性回归基线模型开始并将此作为最小基线。然后尝试着优化XGBoost模型和CAT boost模型,将这两个模型叠加在一起(复现比赛中排名较高的模型),目标是实现比最佳模型更高的模型。在此之后,将探索GANs解决方案,看看GANs能达到什么样的结果。
数据集将被拆分为过去的训练数据和最近的测试数据。其中所有提取和工程特征保持这个拆分,这将确保不会出现数据泄露的问题。我们将使用夏普比率(Sharpe Ratio),这几乎是在人力资源管理和人力投资策略评分中普遍使用的评分指标。夏普比率是由诺贝尔奖得主威廉·f·夏普(William F. Sharpe)提出的,用于帮助投资者了解投资回报与风险的比例。该比率是每单位波动率或总风险的无风险率以外的平均收益。波动性是对资产或投资组合价格波动的衡量。夏普比率根据投资者承担的超额风险,调整投资组合的过去表现或未来预期表现。与回报率较低的类似投资组合或基金相比,较高的夏普比率是好事。但是夏普比率有几个弱点,包括投资回报是正态分布的假设,这里就不进行详细解释了。
数据预处理与特征工程
在金融技术分析领域,技术指标是指基于历史价格、交易量或证券或合同未平仓量的数学计算或模式信号,通过和谐指标可以预测金融市场方向。对于数据科学家来说这被称为特征工程,本项目采用某领域专家提出的顶级技术指标作为我们的特征:7天和21天的移动平均线、指数移动平均线、对数动量、Bollinger bands 和MACD等等。傅里叶变换是一种时间序列数据的处理常用方法,它可以抑制数据中的统计异常,并已被证明允许gru(在我们的GANs模型中使用)学习更健壮的模式。
我们的目标预测是股票的收盘价,上面的图中我们很难能够理解过去的数据能够很好的预测未来的数据,但当我们用自相关进行统计分析时(自相关是指同一变量在两个连续时间间隔之间的相关程度。它衡量一个变量值的滞后版本与它在时间序列中的原始版本之间的关系),我们使用滞后参数100,得到以下强正相关,这意味着我们的预测模型有望取得良好的结果:
完整文章:
https://avoid.overfit.cn/post/d746ef7060ce41fb9a822f9768ea42a3