机器学习第一次作业

机器学习等人工智能领域的前沿技术介绍、展望、应用

自动化机器学习(AutoML)

AutoML出现原因

​ 机器学习的应用需要大量的人工干预,这些人工干预表现在:特征提取、模型选择、参数调节等机器学习的各个方面。AutoML 试图将这些与特征、模型、优化、评价有关的重要步骤进行自动化地学习,使得机器学习模型无需人工干预即可被应用。

AutoML问题定义

作者从机器学习和自动化两个角度给出了定义:

  1. 从机器学习角度讲,AutoML 可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统。但是它强调必须非常容易使用;

  2. 从自动化角度讲,AutoML 则可以看作是设计一系列高级的控制系统去操作机器学习模型,使得模型可以自动化地学习到合适的参数和配置而无需人工干预。

AutoML的核心任务

  • 更好的表现
  • 无人为帮助
  • 更低的计算代价

ML的问题构成

  • 特征工程

    • 在 AutoML 中,自动特征工程的目的是自动地发掘并构造相关的特征,使得模型可以有最优的表现。除此之外,还包含一些特定的特征增强方法,例如特征选择、特征降维、特征生成、以及特征编码等。这些步骤目前来说都没有达到自动化的阶段。
  • 模型选择

    • 模型选择包括两个步骤:选择一个模型和设定它的参数。相应地,AutoML的目的就是自动选择出一个最合适的模型,并且能够设定好它的最优参数。
  • 算法选择

    • 对于算法选择,AutoML 的目的是自动地选择出一个优化算法,以便能够达到效率和精度的平衡。常用的优化方法有 SGD、L-BFGS、GD 等。使用哪个优化算法、对应优化算法的配置,也需要一组搜索空间。

展望(未来可研究方向)

  • 提高AutoML的效率;
  • 更明确的问题定义;
  • 发展基本和高级的搜索策略;

我国在人工智能领域的优势和短板

优势

  • 无可比拟的优势:人口和数据

    • 凭借海量数据,中国企业已在语音识别、语言翻译、精准推送广告、无人车驾驶等领域取得领先地位。科技巨头百度、阿里巴巴、腾讯对中国公民买了什么、去哪里、和谁聊天都了如指掌。
  • 资金来源:中国人工智能生态系统正在生成

    • 根据腾讯研究院8月发布的公开报告,目前在AI领域,美国领先,中国次之。不过,中国在该领域的获投率(企业获得投资的比例)超过美国,呈后来居上之势。
  • 论文数量超过欧盟总和,但是质量仍落后美国和欧盟

    • Elsevier’sSciVal和Scopus数据显示,去年中国人工智能领域的发表论文数量增加了近20%,而欧盟和美国的论文发表数量降低。2016年中国有4724篇人工智能论文发表,而欧盟国家的发表总和为3932篇。然而,基础研究的质量仍然堪忧。尽管中国在量上取胜,但在被引用率top5的论文数量方面,中国仍落后于欧盟。但同时也超过了美国。

短板

  • 芯片-GPU
    • 此前高盛曾发布关于中国人工智能产业发展的调研报告,报告认为,在AI发展中,中国只差一个环节:GPU。近年来,负责图像处理的GPU已经成为主流。然而GPU行业拥有极高的行业壁垒,全球范围内由三大巨头英特尔、AMD和Nvidia占据主导。2015年,美国政府宣布禁止英特尔和其他芯片巨头向中国出售用于科研的高端处理器,对于一直以来依赖国外芯片的中国而言是个打击。不过,在研究领域,中国自主研发的神威·太湖之光计算机已经成为全球第一的超级计算机。高盛认为,虽然中国超级计算机的商业化还未开始,但是随着时间的推移,中国对国外芯片的依赖会慢慢降低。
posted @ 2020-04-23 14:57  阮君曦  阅读(224)  评论(0编辑  收藏  举报