ai 概述

#机器学习
监督学习supervised learning:有数据和标签
非监督学习unsupervised learning:只有数据,没有标签
半监督学习
强化学习reinforcement learning:从经验中总结提升
遗传算法 genetic algorithm 适者生存,不适者淘汰
一 neural network 神经网络 属于监督学习
## 卷积神经网络CNN convolutional Networks
## 循环神经网络RNN recurrent neural network
### 长短期记忆 LSTM long short-Term Memery RNN

##自编码autoencoder 非监督学习
##GAN 生成对抗网络 Generative adversarial nets
##检验神经网络 Evaluate model
training data 70%, test data 30%
##数据标准化
##区分好的特征good features
## 激励函数 activation functions
relu CNN
relu or tanh RNN
##overfitting 过拟合
##加速神经网络训练 sped up traning process
stochastic gradient descent SGD
W +=Learing rate* dx
Momentum
m=b1*m-learning rate * dx
w+=m
AdaGrad
v+=dx^2
w +=learning rate* dx/ v开方
RMSProp
Adam
## 处理不均衡数据 imbalanced data
##批标准化 batch normalization
二 强化学习 Reinforcement Learning alpha go
#model-free Rl 不理解环境
Q learnging,sarsa ,policy gradients
#model-based Rl 理解环境
#基于概率 policy-based
# value-based
actor-critic
#monte-carlo update 回合更新
# temporal-difference update 单步更新
on-policy 在线学习
off-policy 离线学习
## Q learing off-learing
##Sarsa onlie learning 说到作到
##sarsa(lambada)
#DQN Deep Q Learning
#Policy Gradients
#Actor Critic 结合 policy gradients ,Q learning
#DDPG actor critic+DQN 连续动作更有效学习
#A3C Asychronous advantage Actor-Critic

 

posted @ 2017-10-23 09:24  anjunact  阅读(228)  评论(0编辑  收藏  举报