05 2020 档案
李宏毅的强化学习视频用于梳理翻阅(4)奖励、模仿
摘要:效果不太好 稀疏奖励中的好奇心 curiosity模型中,在原来DQN的基础上,建立了Network1,用于在𝑎_𝑡和𝑠_𝑡的条件下预测输出的下一个状态,与实际在MDP的一个片段上输出的,下一个状态之间求差,将差作为奖励r的一部分,以鼓励探索不同的状态。 引入了Network2,将输入的两个
领导力与正念
摘要:人的大脑的意识分为 潜意识 表意识 前意识 前意识是守门员,表意识是理性思维和判断,潜意识是本能 人的潜意识分为 自我 本能 中层 高层 自我是面子,比较等展示优点隐藏确定点方面的自我相关内容 本能是利益和实际回报 中层是指记忆和心智模式 高层是同理心,创造力,灵感 创新性思维有 顿悟 心流(文思如
按部就班的吴恩达机器学习网课用于讨论(13)
摘要:异常检测-问题动机 为了进行数据条目的异常检测(正样本很少的二分类问题),使用密度估计的方法,在每条数据中,每个x的特征可能性为𝑝(𝑥)。 当模型概率𝑝(𝑥)累乘值小于epsilon,则认为是一条异常条目。在下图中,数据集中的中心区域,其概率累乘p则大一些,更可能是正常的样本。 高斯分布 高
李宏毅的强化学习视频用于梳理翻阅(3)值
摘要:估计价值的方法MC与TD MC(Monte-Carlo)的方法,在Sutton的书中有比较权威并详细的说明。地址:https://rl.qiwihui.com/zh_CN/latest/index.html 下图是首次访问型的MC方法,估计状态的价值V。在初始化后,先根据策略获取一个完整的序列,然后
按部就班的吴恩达机器学习网课用于讨论(12)
摘要:数据压缩 将二维数据降低到一维数据的方法,有直接替换的方法。下图中,将数据条目的二维特征x1,x2,转化为了一维特征z1。其中,x1和x2是直接相关的(因为四舍五入出现了一些偏差),而z1等于x1。 但是更通用的方法,应该是建立一个直线,该直线到所有特征点的距离平方和是最小的。以该直线建立坐标轴z,
tensorflow零起点快速入门(7),截图整理
摘要:tf.gradients tf.stop_gradient np.ravel tf.distrbution.prob/sample 获取对应位置的概率值 python的Queue tf.sequeeze tf.one_hot tf.one_hot的必要性在于:one_hot方式,去掉了标签的顺序影响
李宏毅的强化学习视频用于梳理翻阅(2)策略与值
摘要:Actor-Critic算法 在之前的Policy Gradient算法中,其运行结果不够稳定的至少一条原因是:奖励项不够稳定。 下图中,蓝色实现标记的当前和随后的奖励累积和,作为评判𝜋生成的轨迹的好坏度量,即通过累积和修正𝑙𝑜𝑔𝑝_𝜃。 但是,该累积和受到了策略网络𝜋的影响很大。在相
李宏毅的强化学习视频用于梳理翻阅(1)策略
摘要:本文主要是整理策略迭代的部分,重在阐明原理。李宏毅的视频,见网上。 最终说明OpenAI的默认强化学习算法PPO的部分。(Proximal Policy Optimization) 蓝色标记为有待查阅具体代码。不同于强化学习的值迭代的容易理解和表达,策略迭代更需要耐心、细心、思考。 优化目标 策略
按部就班的吴恩达机器学习网课用于讨论(11)
摘要:核函数2 知道了核函数的表示形式(使用例如高斯核函数作为工具,计算样本x和地标l之间的距离作为特征f,其中f为核函数),之后就是讨论核函数地标的选择。 选择形式为:将训练集中的样本个数m选择,作为地标,获得m个特征f。并增加一个偏置f0=1。得到m+1维的特征f。 对于支持向量机的thetaT*x,
按部就班的吴恩达机器学习网课用于讨论(10)
摘要:类偏斜的误差度量 比如在一个肿瘤预测的问题上,当大量的样本为负样本(实际上没有肿瘤99.5%),只有少数的样本为正样本(实际存在肿瘤0.5%)。那么评判一个机器学习模型的指标,就需要调整。 在一个极端的情况,当一个模型为y=0,也就是将所有预测全为负样本,就有了99.5%的正确率,而这种模型忽略了输