随笔分类 -  机器学习

摘要:第二章 提供推荐 1、搜集偏好 先构造一个简单的数据集: 2、相似度评价值 注:皮尔逊相关度的计算中,如果某人总是倾向于给出比另一个人更高的分值,而两者的分值之差又始终保持一致,则他们依然可能会存在很好的相关性。毕竟,这个方法认为最相关的时候就是“y=x”直线的时候。 3、提供推荐 ①为评论者打分: 阅读全文
posted @ 2018-12-23 16:24 小时候挺菜 阅读(334) 评论(0) 推荐(0) 编辑
摘要:概率图模型是一类用图来表达变量相关关系的概率模型。它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的变表是变量间的概率相关关系。根据边的性质不同,可以将概率图模型分为两类:一类是使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网;另一类是使用无向图表示变量间的相关关系 阅读全文
posted @ 2018-12-01 16:06 小时候挺菜 阅读(584) 评论(0) 推荐(0) 编辑
摘要:在这里我们仍然使用非常简单的天气模型来做说明。在这个马尔可夫模型中,存在三个状态,Sunny, Rainy, Cloudy,同时图片上标的是各个状态间的转移概率(如果不明白什么是转移概率,那建议先去学习什么是马尔可夫再来看HMM)。现在我们要说明什么是 HMM。既是隐形,说明这些状态是观测不到的,相 阅读全文
posted @ 2018-12-01 16:03 小时候挺菜 阅读(1036) 评论(0) 推荐(0) 编辑
摘要:一:介绍(Introduction) 我们通常都习惯寻找一个事物在一段时间里的变化模式(规律),这些模式发生在很多领域,比如计算机中的指令序列,句子中的词语顺序和口语单词的因素修咧等等,事实上任何领域中的一系列事件都有可能产生有用的模式。 考虑一个简单的例子,有人试图通过一片海藻推断天气——民间传说 阅读全文
posted @ 2018-12-01 15:39 小时候挺菜 阅读(539) 评论(0) 推荐(0) 编辑
摘要:前面已经讲了强化学习的基本方法:基于动态规划的方法,基于蒙特卡罗的方法和基于时间差分的方法。这些方法有一个基本的前提条件,那就是状态空间和动作空间是离散的,而且状态空间和动作空间不能太大。 我们回想一下已经介绍的强化学习方法的基本步骤是:首先评估值函数,接着利用值函数改进当前的策略。其中值函数的评估 阅读全文
posted @ 2017-12-01 14:34 小时候挺菜 阅读(1001) 评论(0) 推荐(0) 编辑
摘要:强化学习入门第四讲 时间差分方法 上一节我们已经讲了无模型强化学习最基本的方法蒙特卡罗方法。本节,我们讲另外一个无模型的方法时间差分的方法。 图4.1 强化学习算法分类 时间差分(TD)方法是强化学习理论中最核心的内容,是强化学习领域最重要的成果,没有之一。与动态规划的方法和蒙特卡罗的方法比,时间差 阅读全文
posted @ 2017-12-01 14:33 小时候挺菜 阅读(2042) 评论(1) 推荐(0) 编辑
摘要:强化学习基础 第三讲 蒙特卡罗方法 上一节课我们讲了已知模型时,利用动态规划的方法求解马尔科夫决策问题。从这节课开始,我们讲无模型的强化学习算法。 图3.1 强化学习方法分类 解决无模型的马尔科夫决策问题是强化学习算法的精髓。如图3.1所示,无模型的强化学习算法主要包括蒙特卡罗方法和时间差分方法。这 阅读全文
posted @ 2017-12-01 14:32 小时候挺菜 阅读(823) 评论(0) 推荐(0) 编辑
摘要:强化学习基础 第二讲 基于模型的动态规划算法 上一讲我们将强化学习的问题纳入到马尔科夫决策过程的框架下进行解决。一个完整的已知模型的马尔科夫决策过程可以利用元组来表示。其中 为状态集,为动作集, 为转移概率,也就是对应着环境和智能体的模型,为回报函数,为折扣因子用来计算累积回报。累积回报公式为,其中 阅读全文
posted @ 2017-12-01 14:31 小时候挺菜 阅读(1833) 评论(0) 推荐(0) 编辑
摘要:强化学习入门第一讲 马尔科夫决策过程 强化学习算法理论的形成可以追溯到上个世纪七八十年代,近几十年来强化学习算法一直在默默地不断进步,真正火起来是最近几年。代表性的事件是DeepMind 团队于2013年12月首次展示了机器利用强化学习算法在雅达利游戏中打败人类专业玩家,其成果在2015年发布于顶级 阅读全文
posted @ 2017-12-01 14:18 小时候挺菜 阅读(722) 评论(0) 推荐(1) 编辑
摘要:监督学习:给机器一个模型类的东西,然后机器可以根据这个模型判断其他模型,例如给一张猫的照片,机器可以自己识别其他图片是不是猫。 非监督学习:没有给模型,机器自己判断,发现规律 半监督学习:用少量有标签的样本和大量没标签的样本学习和分类 强化学习:处在陌生环境中,自己不断尝试完成任务 遗传算法:通过淘 阅读全文
posted @ 2017-11-07 15:12 小时候挺菜 阅读(181) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示