摘要:
201119西瓜书系列博客 1、绪论 一、总结 一句话总结: 要善于凭借,这样万利无害 1、为什么未标记的数据照样很有用? 通常假设样本空间中全体样本服从某个未知分布,我们获得的每个样本都是独立地从这个分布上采样获得的【(即“独立同分布”)】 一般而言:【训练样本越多 ——> 得到关于该未知分布的信 阅读全文
摘要:
201119西瓜书系列博客 16、强化学习 一、总结 一句话总结: 强化学习(【Reinforcement Learning】,简称【RL】)是机器学习的一个重要分支,前段时间人机大战的主角【AlphaGo正是以强化学习为核心技术】。 在强化学习中,包含两种基本的元素:【状态与动作】,【在某个状态下 阅读全文
摘要:
AlphaGo原理浅析 一、总结 一句话总结: 正如人类下棋那般【“手下一步棋,心想三步棋”】,Alphago也正是这个思想 【当处于一个状态时,机器会暗地里进行多次的尝试/采样】,并基于反馈回来的结果信息改进估值函数,从而最终通过增强版的估值函数来选择最优的落子动作。 1、AlphaGo的三大核心 阅读全文
摘要:
201116西瓜书机器学习系列 16、强化学习 一、总结 一句话总结: 【强化学习的应用非常非常广泛】 【AlphaGo代表着双人完美信息零和游戏。AlphaGo在围棋这么难的问题上取得了举世瞩目的成绩;AlphaGo是人工智能的一个里程碑。】 【Deepmind AlphaStar打败了星际争霸人 阅读全文