会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
微笑sun
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
3
4
5
6
7
8
9
10
11
···
13
下一页
2018年12月24日
强化学习(四)—— DQN系列(DQN, Nature DQN, DDQN, Dueling DQN等)
摘要: 1 概述 在之前介绍的几种方法,我们对值函数一直有一个很大的限制,那就是它们需要用表格的形式表示。虽说表格形式对于求解有很大的帮助,但它也有自己的缺点。如果问题的状态和行动的空间非常大,使用表格表示难以求解,因为我们需要将所有的状态行动价值求解出来,才能保证对于任意一个状态和行动,我们都能得到对应的
阅读全文
posted @ 2018-12-24 11:11 微笑sun
阅读(19467)
评论(0)
推荐(3)
2018年12月21日
生成对抗网络(GAN)
摘要: GAN的全称是 Generative Adversarial Networks,中文名称是生成对抗网络。原始的GAN是一种无监督学习方法,巧妙的利用“博弈”的思想来学习生成式模型。 1 GAN的原理 GAN的基本原理很简单,其由两个网络组成,一个是生成网络G(Generator) ,另外一个是判别网
阅读全文
posted @ 2018-12-21 15:44 微笑sun
阅读(4588)
评论(0)
推荐(1)
2018年12月5日
详解Transformer模型(Atention is all you need)
摘要: 1 概述 在介绍Transformer模型之前,先来回顾Encoder-Decoder中的Attention。其实质上就是Encoder中隐层输出的加权和,公式如下: 将Attention机制从Encoder-Decoder框架中抽出,进一步抽象化,其本质上如下图 (图片来源:张俊林博客): 以机器
阅读全文
posted @ 2018-12-05 16:15 微笑sun
阅读(19956)
评论(5)
推荐(3)
2018年12月4日
ELMO模型(Deep contextualized word representation)
摘要: 1 概述 word embedding 是现在自然语言处理中最常用的 word representation 的方法,常用的word embedding 是word2vec的方法,然而word2vec本质上是一个静态模型,也就是说利用word2vec训练完每个词之后,词的表示就固定了,之后使用的时候
阅读全文
posted @ 2018-12-04 10:18 微笑sun
阅读(11261)
评论(2)
推荐(0)
2018年11月26日
tensorflow 模型保存与加载 和TensorFlow serving + grpc + docker项目部署
摘要: TensorFlow 模型保存与加载 TensorFlow中总共有两种保存和加载模型的方法。第一种是利用 tf.train.Saver() 来保存,第二种就是利用 SavedModel 来保存模型,接下来以自己项目中的代码为例。 项目中模型的代码: 在之后的预测时,我需要输入的参数有 input_d
阅读全文
posted @ 2018-11-26 19:03 微笑sun
阅读(5826)
评论(1)
推荐(1)
2018年11月15日
强化学习(三)—— 时序差分法(SARSA和Q-Learning)
摘要: 1、时序差分法基本概念 虽然蒙特卡洛方法可以在不知道状态转移概率矩阵的前提下,灵活地求解强化学习问题,但是蒙特卡洛方法需要所有的采样序列都是完整的状态序列。如果我们没有完整的状态序列就无法用蒙特卡洛方法求解。此外蒙特卡洛方法的高方差依然存在。 时序差分法简称为TD法。TD法是一种结合蒙特卡洛法和动态
阅读全文
posted @ 2018-11-15 17:03 微笑sun
阅读(4329)
评论(0)
推荐(0)
强化学习(二)—— 蒙特卡洛方法求解
摘要: 1、“无模型学习”的基本概念 在前一章中提到的基于动态规划的策略迭代和值迭代求解强化学习都属于“有模型学习”,都是在需要知道状态转移概率矩阵的前提下才能适用的算法。然而在现实很多场景中,我们无法获得环境信息,也就是状态转移概率矩阵未知。此时我们无法再利用策略迭代和值迭代算法来求解,需要提出新的方法来
阅读全文
posted @ 2018-11-15 15:20 微笑sun
阅读(2925)
评论(0)
推荐(0)
2018年11月14日
强化学习(一)—— 基本概念及马尔科夫决策过程(MDP)
摘要: 1、策略与环境模型 强化学习是继监督学习和无监督学习之后的第三种机器学习方法。强化学习的整个过程如下图所示: 具体的过程可以分解为三个步骤: 1)根据当前的状态 $s_t$ 选择要执行的动作 $ a_t $。 2)根据当前的状态 $s_t $ 和动作 $ a_t$ 选择转移后的状态 $s_{t+1}
阅读全文
posted @ 2018-11-14 20:20 微笑sun
阅读(3041)
评论(0)
推荐(1)
2018年9月30日
Deep Knowledge Tracing (深度知识追踪)
摘要: 论文:Deep Knowledge Tracing Addressing Two Problems in Deep Knowledge Tracing via Prediction-Consistent Regularization How Deep is Knowledge Tracing? te
阅读全文
posted @ 2018-09-30 16:40 微笑sun
阅读(15661)
评论(40)
推荐(4)
2018年9月26日
用于文本分类的多层注意力模型(Hierachical Attention Nerworks)
摘要: 论文来源:Hierarchical Attention Networks for Document Classification 1、概述 文本分类时NLP应用中最基本的任务,从之前的机器学习到现在基于词表示的神经网络模型,分类准确度也有了很大的提升。本文基于前人的思想引入多层注意力网络来更多的关注
阅读全文
posted @ 2018-09-26 20:00 微笑sun
阅读(7538)
评论(0)
推荐(1)
上一页
1
···
3
4
5
6
7
8
9
10
11
···
13
下一页
公告