Machine Learning - 随笔分类 - Poll的笔记

[Reinforcement Learning] Policy Gradient Methods

摘要：上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法： $$ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\pi}(s, a) $$ 通过机器学习的方法我们一旦近似了价值函数或者是动作价值函数就可以通过一些策略阅读全文

posted @ 2018-11-02 09:52 Poll的笔记阅读(7125) 评论(3) 推荐(1)

[Reinforcement Learning] Value Function Approximation

摘要：为什么需要值函数近似？之前我们提到过各种计算值函数的方法，比如对于 MDP 已知的问题可以使用 Bellman 期望方程求得值函数；对于 MDP 未知的情况，可以通过 MC 以及 TD 方法来获得值函数，为什么需要再进行值函数近似呢？其实到目前为止，我们介绍的值函数计算方法都是通过查表的方式获取阅读全文

posted @ 2018-11-01 09:46 Poll的笔记阅读(2118) 评论(0) 推荐(0)

[Reinforcement Learning] Model-Free Control

摘要：上篇总结了 Model Free Predict 问题及方法，本文内容介绍 Model Free Control 方法，即 "Optimise the value function of an unknown MDP"。在这里说明下，Model Free Predict/Control 不仅适用于阅读全文

posted @ 2018-10-31 10:40 Poll的笔记阅读(2523) 评论(2) 推荐(0)

[Reinforcement Learning] Model-Free Prediction

摘要：上篇文章介绍了 Model based 的通用方法——动态规划，本文内容介绍 Model Free 情况下 Prediction 问题，即 "Estimate the value function of an unknown MDP"。 Model based：MDP已知，即转移矩阵和奖赏函数均已知阅读全文

posted @ 2018-10-30 09:37 Poll的笔记阅读(2083) 评论(1) 推荐(2)

[Reinforcement Learning] 动态规划(Planning)

摘要：动态规划动态规划（Dynamic Programming，简称DP）是一种通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划常常适用于具有如下性质的问题：具有最优子结构（Optimal substructure） Principle of optimality applies 阅读全文

posted @ 2018-10-29 09:26 Poll的笔记阅读(5612) 评论(0) 推荐(1)

[Reinforcement Learning] 马尔可夫决策过程

摘要：在介绍马尔可夫决策过程之前，我们先介绍下情节性任务和连续性任务以及马尔可夫性。情节性任务 vs. 连续任务情节性任务（Episodic Tasks），所有的任务可以被可以分解成一系列情节，可以看作为有限步骤的任务。连续任务（Continuing Tasks），所有的任务不能分解，可以看作为无限阅读全文

posted @ 2018-10-28 10:05 Poll的笔记阅读(9810) 评论(0) 推荐(3)

[Reinforcement Learning] 强化学习介绍

摘要：随着AlphaGo和AlphaZero的出现，强化学习相关算法在这几年引起了学术界和工业界的重视。最近也翻了很多强化学习的资料，有时间了还是得自己动脑筋整理一下。强化学习定义先借用维基百科上对强化学习的标准定义：强化学习（Reinforcement Learning，简称RL）是机器学习中的一阅读全文

posted @ 2018-10-27 17:53 Poll的笔记阅读(8695) 评论(1) 推荐(3)

[Deep Learning] 正则化

摘要：在总结正则化（Regularization）之前，我们先谈一谈正则化是什么，为什么要正则化。个人认为正则化这个字眼有点太过抽象和宽泛，其实正则化的本质很简单，就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。一提到正则化，很多同学可阅读全文

posted @ 2018-06-30 17:01 Poll的笔记阅读(11300) 评论(0) 推荐(14)

[Deep Learning] 常用的Active functions & Optimizers

摘要：深度学习的基本原理是基于人工神经网络，输入信号经过非线性的active function，传入到下一层神经元；再经过下一层神经元的activate，继续往下传递，如此循环往复，直到输出层。正是因为这些active functions的堆砌，深度学习才被赋予了解决非线性问题的能力。当然，仅仅靠acti 阅读全文

posted @ 2018-06-26 10:24 Poll的笔记阅读(5008) 评论(2) 推荐(6)

[Machine Learning] 浅谈LR算法的Cost Function

摘要：了解LR的同学们都知道，LR采用了最小化交叉熵或者最大化似然估计函数来作为Cost Function，那有个很有意思的问题来了，为什么我们不用更加简单熟悉的最小化平方误差函数（MSE）呢？我个人理解主要有三个原因： MSE的假设是高斯分布，交叉熵的假设是伯努利分布，而逻辑回归采用的就是伯努利分布；阅读全文

posted @ 2018-06-10 16:52 Poll的笔记阅读(4810) 评论(0) 推荐(2)

[Machine Learning] logistic函数和softmax函数

摘要：简单总结一下机器学习最常见的两个函数，一个是logistic函数，另一个是softmax函数，若有不足之处，希望大家可以帮忙指正。本文首先分别介绍logistic函数和softmax函数的定义和应用，然后针对两者的联系和区别进行了总结。 1. logistic函数 1.1 logistic函数定义阅读全文

posted @ 2016-07-17 15:28 Poll的笔记阅读(44351) 评论(2) 推荐(10)

[Deep Learning] 神经网络基础

摘要：目前，深度学习（Deep Learning，简称DL）在算法领域可谓是大红大紫，现在不只是互联网、人工智能，生活中的各大领域都能反映出深度学习引领的巨大变革。要学习深度学习，那么首先要熟悉神经网络（Neural Networks，简称NN）的一些基本概念。当然，这里所说的神经网络不是生物学的神经网络阅读全文

posted @ 2016-06-19 20:31 Poll的笔记阅读(117366) 评论(9) 推荐(152)

[Machine Learning] Active Learning

摘要：1. 写在前面在机器学习(Machine learning)领域，监督学习(Supervised learning)、非监督学习(Unsupervised learning)以及半监督学习(Semi-supervised learning)是三类研究比较多，应用比较广的学习技术，wiki上对这三种阅读全文

posted @ 2016-05-21 18:38 Poll的笔记阅读(14556) 评论(4) 推荐(4)

[Machine Learning & Algorithm]CAML机器学习系列2：深入浅出ML之Entropy-Based家族

摘要：声明：本博客整理自博友@zhouyong计算广告与机器学习－技术共享平台，尊重原创，欢迎感兴趣的博友查看原文。声明：本博客整理自博友@zhouyong计算广告与机器学习－技术共享平台，尊重原创，欢迎感兴趣的博友查看原文。写在前面记得在《Pattern Recognition And Machi 阅读全文

posted @ 2016-05-21 15:34 Poll的笔记阅读(3987) 评论(0) 推荐(6)

[Machine Learning & Algorithm]CAML机器学习系列1：深入浅出ML之Regression家族

摘要：声明：本博客整理自博友@zhouyong计算广告与机器学习－技术共享平台，尊重原创，欢迎感兴趣的博友查看原文。符号定义声明：本博客整理自博友@zhouyong计算广告与机器学习－技术共享平台，尊重原创，欢迎感兴趣的博友查看原文。符号定义这里定义《深入浅出ML》系列中涉及到的公式符号，如无特殊阅读全文

posted @ 2016-05-15 11:59 Poll的笔记阅读(5364) 评论(0) 推荐(2)

[Algorithm] 机器学习算法常用指标总结

摘要：考虑一个二分问题，即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况。如果一个实例是正类并且也被预测成正类，即为真正类（True positive）,如果实例是负类被预测成正类，称之为假正类（False positive）。相应地，如果实例是负类被预阅读全文

posted @ 2016-04-10 20:04 Poll的笔记阅读(30905) 评论(9) 推荐(15)

[Machine Learning] 梯度下降法的三种形式BGD、SGD以及MBGD

摘要：在应用机器学习算法时，我们通常采用梯度下降法来对采用的算法进行训练。其实，常用的梯度下降法还具体包含有三种不同的形式，它们也各自有着不同的优缺点。下面我们以线性回归算法来对三种梯度下降法进行比较。一般线性回归函数的假设函数为：$h_{\theta}=\sum_{j=0}^{n}\thet... 阅读全文

posted @ 2015-12-30 19:46 Poll的笔记阅读(70375) 评论(12) 推荐(63)

[Machine Learning & Algorithm] 决策树与迭代决策树（GBDT）

摘要：谈完数据结构中的树（详情见参照之前博文《数据结构中各种树》），我们来谈一谈机器学习算法中的各种树形算法，包括ID3、C4.5、CART以及基于集成思想的树模型Random Forest和GBDT。本文对各类树形算法的基本思想进行了简单的介绍，重点谈一谈被称为是算法中的“战斗机”，机器学习中的“屠... 阅读全文

posted @ 2015-08-16 17:28 Poll的笔记阅读(11761) 评论(1) 推荐(16)

[Machine Learning] 机器学习常见算法分类汇总

摘要：机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法，以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是，很多算法是一类算法，而有些算法又是从其他算法中延伸出来的。这里，我们从两个方面来给大家介绍，第一个方面是学习的方式，第二个方面是算法的分类。阅读全文

posted @ 2015-07-22 07:36 Poll的笔记阅读(35442) 评论(13) 推荐(17)

[Machine Learning & Algorithm] 朴素贝叶斯算法（Naive Bayes）

摘要：生活中很多场合需要用到分类，比如新闻分类、病人分类等等。本文介绍朴素贝叶斯分类器（Naive Bayes classifier），它是一种简单有效的常用分类算法。一、病人分类的例子让我从一个例子开始讲起，你会看到贝叶斯分类器很好懂，一点都不难。某个医院早上收了六个门诊病人，如下表。　... 阅读全文

posted @ 2015-07-20 08:36 Poll的笔记阅读(4138) 评论(2) 推荐(5)

Poll的笔记

[三叶草精神] what hurts more,the pain of hard work or the pain of regret?

随笔分类 - Machine Learning

公告