第一次个人作业

课程学习心得

经过这几周对机器学习的学习，了解了很多基础的概念，对模式识别有了一个整体上的认识。其实整体上的思路很简单，就是将待判别的目标抽取特征，使用训练好的模型得出结果。
对于特征抽取课程并没有深入介绍，只有介绍了一些粗略的原则。重点主要在模型的确定上。
模型介绍了基于距离和基于概率的模型。基于距离的介绍了欧式距离和马氏距离，一步步分析了不足，体现了数学的思想和线性代数的重要性。
基于概率的模型核心在于贝叶斯公式和全概率公式，采用后验概率最大的做决策。而后验概率又需要先验概率，观测概率和边缘概率，对于概率的模型主要是正态分布。为了求后验概率，有时并非先验概率这些都已经，我们需要使用一些数学上的方法去估计它，主要是已知分布的极大似然和贝叶斯估计和未知分布的KNN估计、直方图和核密度估计。
将脉络梳理后其实机器学习并非太难，本质上就是提出问题，然后利用数学来解决问题，反应了数学的重要性和探索的过程。

人工智能领域的前沿技术——深度强化学习

基本概念

强化学习 （Reinforcement Learning， RL）作为机器学习领域另一个研究热点，已经广泛应用于工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈等领域．RL的基本思想是通过最大化智能体（agent）从环境中获得的累计奖赏值，以学习到完成目标的最优策略。因此 RL 方法更加侧重于学习解决问题的策略，被认为是迈向通用人工智能（Artificial General Intelligence， AGI）的重要途径。

研究前沿

分层深度强化学习：利用分层强化学习（Hierarchical Reinforcement Learning，HRL）将最终目标分解为多个子任务来学习层次化的策略，并通过组合多个子任务的策略形成有效的全局策略。

多任务迁移深度强化学习：在传统 DRL 方法中，每个训练完成后的 agent只能解决单一任务．然而在一些复杂的现实场景中，需要 agent 能够同时处理多个任务，此时多任务学习和迁移学习就显得异常重要．Wang 等人总结出 RL 中的迁移分为两大类：行为上的迁移和知识上的迁移，这两大类迁移也被广泛应用于多任务 DRL 算法中。

多 agent 深度强化学习：在面对一些真实场景下的复杂决策问题时，单agent 系统的决策能力是远远不够的．例如在拥有多玩家的 Atari 2600 游戏中，要求多个决策者之间存在相互合作或竞争的关系．因此在特定的情形下，需要将 DRL 模型扩展为多个 agent 之间相互合作、通信及竞争的多 agent 系统。

基于记忆与推理的深度强化学习：在解决一些高层次的 DRL 任务时， agent 不仅需要很强的感知能力，也需要具备一定的记忆与推理能力，才能学习到有效的决策．因此赋予现有 DRL 模型主动记忆与推理的能力就显得十分重要。

深度强化学习的应用

在 DRL 发展的最初阶段， DQN 算法主要被应用于 Atari 2600 平台中的各类 2D 视频游戏中．随后，研究人员分别从算法和模型两方面对 DQN 进行了改进，使得 agent 在 Atari 2600 游戏中的平均得分提高了 300%，并在模型中加入记忆和推理模块，成功地将 DRL 应用场景拓宽到 3D 场景下的复杂任务中． AlphaGo 围棋算法结合深度神经网络和MCTS，成功地击败了围棋世界冠军．此外， DRL在机器人控制、计算机视觉、自然语言处理和医疗等领域的应用也都取得了一定的成功。

我们国家人工智能领域的先进和不足

我国在深度学习、识别技术等领域实力突出，在人工智能市场应用层面走在世界前列。但在基础技术、产业链跨界协同、核心人才培养方面则存有短板。
人工智能研究可以分为基础层、技术层、应用层，美国在技术难度大、技术带动效应强的基础层方面，不断取得研究以及实践进展；而中国在基础层方面能力稍弱，在技术层和应用层发力更多。基础层主要指处理器、芯片等支撑人工智能技术的核心能力；技术层包括自然语言处理、计算机视觉、技术平台等通用技术；应用层是指自动驾驶、智能机器人等实际应用主体。
从事计算机视觉识别的中国公司“旷视科技”品牌与市场中心总经理谢忆楠表示，在图像识别领域，公司同时应用英伟达和英特尔的芯片，目前还没有国产芯片能够完全取而代之。英特尔中国研究院院长宋继强也承认，我国人工智能领域不足之处在于我们原创理论创新、基础人工智能研发能力还不太够。中国学者需要在理论上有所突破。地平线机器人技术创始人余凯表示，在PC电脑与移动互联网时代，我们都错失了如操作系统等基础平台性技术，人工智能时代需要迎头赶上。

posted @ 2020-03-20 17:25 run_around 阅读(310) 评论(0) 收藏举报

刷新页面返回顶部

run_around