> Julyedu.com 感谢 白嫖的 七月在线 专注数据领域的在线教育
01 自动化交易综述

时间序列分析
策略建模及其优化方法
策略评价与回测
风险管理
交易策略的实现
交易策略的执行
BP(Back Proppagation)算法

误差反向传播(Error Back Propagation, BP)算法。
学习过程由信号的正向传播与误差的反向传播两个过程组成。
Algorithmic Trading Without Bullshit 算法交易综述


Algorithmic Trading利用自动化平台,执行预先设置的一系列规则完成交易行为。

 

  

提出假设 移动平均数 神经网络
SVM是一种监督学习算法,它可以用于分类和回归分析。
时间序列分析

建立模型
回测验证
执行交易


交易策略的来源 Strategy
1.市场微观结构研究(for HFT mostly) 微观市场尺度
ORDER BookS 下单 bid ask symbol 数量 limit price撮合价格
预测下一个 tick

2.基金结构套利(fund structure arbitrage)
3.机器学习/人工智能 函数模型
线性回归模型

历史数据 X 二维向量 x1 x2
新的输入 training
学习算法
模型 w向量权重
模型
输出

SVM
DNN
RF
NB 朴素贝叶斯(Naïve Bayes, NB)算法


Price/MA指标训练集
决策边界
线性分类器


Four paradigms of machine learning
Connectionism 联结主义 神经网络 连接加权 线性变换
Symbolism 形象符号主义 不规则 决策树 可解释
Frequentists
Bayesian 贝叶斯

 

A (super) Brief History of A.l
58-69 NNs, logics 逻辑主义
7OS WINTER 寒冬
80-95 NNS 黑盒
95-10 SVMs and statistical learning 数据背景
10s-current
06-11


hinton教授
Ruslan Salakhutdinov
Stephen Muggleton

Machine Learning in a nutshell
Data
Model & Objective Function
Optimization 寻找函数极值

 

监督学习

Machine Learning & Trading
Limit Order Book Modeling 高频微观尺度
Price-based Classification Models 基于价格 分类 MA5 MACD
Text-based Classification Models 自然语言文本爬取 噪声大 风控
Reinforcement Learning 强化学习


4 Key Factors that makes magic happens
Good Model and Efficient Training Algorithms ML
Hardware( GPU/CPU)
(high quality) DATA
Platform(keras/tensorflow/sklearn)
ML(Machine Learning)、DP(Deep Learning)

 

深度学习
CNN for spatial data(空间次序) 卷积神经
LSTM for temporal data(时间次序)

隐马尔可夫模型 (Hidden Markov Model,HMM )是一种统计模型,用于描述一个含有隐含未知参数的马尔可夫过程。


强化学习
envir
agent
policy
reward
action

cs231N

自然语言处理
文本 编码器 上下文 向量 语义定义 语义关联
新闻编码 标记 神经网络
非监督学习

特征工程 定义X输入向量 指标 MA5
特征选择 feature


训练分类器
建立


交易策略的评估
1. 策略基本假设
2. Sharp Ratio
3. 杠杆
4. 频率
5. 风险
6. W/L
7. 模型复杂度
VC Dimension:全称是Vapnik-Chervonenkis dimension。其用来衡量一个模型的复杂度
8. 最大亏损(Maxium drawdown)
9. Benchmarking


何谓回测?
将交易策略在历史数据中进行合理验证的过程


回测的意义1.策略筛选2.策略优化3.策略验证


错误的回测方法
很多情况下,回测结果不错,实盘交易不尽如人意,造成的偏差原因主要有:
1.乐观主义偏差。(special look back region)
时间旅行。
程序Bug
2. Train/Val/Test set 训练 验证 测试
3. 幸存者误差

sklearn
pandas

事件驱动

事件驱动

#event driven
while True:
	new_even = get new_event()
	if new event.something=="whatever"
		do_something()
	if new event.something== "all right"
		do_something_else()
	tick(50)  #wait 50 milliseconds

Event
Event Queue
DataHandler
Strategy
Portfolio
ExecutionHandler
Backtest

 

 

08 自动交易系统的搭建 2000个

Scikit-learn(以前称为scikits.learn,也称为sklearn)是针对Python 编程语言的免费软件机器学习库。它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k均值和DBSCAN,并且旨在与Python数值科学库NumPy和SciPy联合使用。
Random Forest 随机森林 2001
RFR是一种集成学习方法,通过组合多个决策树模型进行预测,以提高预测准确性。
ExtraTreesRegressor 完全随机树 04-06
抗击过拟合 界面问题


将数据集划分为训练集和测试集


损失函数
均方误差(Mean Squared Error,MSE)作为评估指标
反映估计量与被估计量之间差异程度的一种度量。设t是根据子样确定的总体参数θ的一个估计量,(θ-t)2的数学期望,称为估计量t的均方误差。它等于σ2+b2,其中σ2与b分别是t的方差与偏倚。