学习心得
第一章讲了基本概念以及评价指标,了解到了什么是机器学习,怎样才算识别效果比较好,以及如何用数学表达。第二章就正式开始讲分类的方法了,讲述了用距离进行分类,其中用欧式距离要消除特征之间的相关性,以及量纲的影响,所以就引入了MICD分类器,但MICD分类器的缺陷是距离相等的时候会选择方差较大的那一类,也有问题。后面就用了概率论的方法来解决问题,使用MAP分类器,通过比较后验概率来进行决策,后验概率的求解可以根据贝叶斯公式,但是要先求得先验概率和观测概率,对于监督式学习,有参数估计和非参数估计法,常用的参数估计法分为最大似然估计和贝叶斯估计,最大似然估计对于估计的参数是确定的,通过微分运算可求得估计的参数,而贝叶斯分布的估计参数是一个随机变量,随着样本数量的增加,贝叶斯估计会更加准确。但是参数估计的基础必须建立在概率分布已知的情况下,否则就只能用非参数估计法,比如knn估计,估计一个非常小的区域的概率密度,来求得一个落入这个区域的概率。总的来说来说很有收获的,这里面最大的一个问题是用到了很多线代和概率论的数学知识,要学好机器学习必须把他们学好。
人工智能领域前沿技术
人工智能最新前沿技术——自动化机器学习(AutoML)
2017 年 5 月,谷歌在 I/O 大会上发布了 AutoML,他们将 AutoML 应用到了深度学习的图像识别和语言建模的两大数据集中,他们提供的 Cloud AutoML 和 Google NAS 算法结合,把完整的机器学习工作做成了云端产品,用户只需要提供数据,Cloud AutoML 将自动构建深度学习模型。换言之,AutoML想要做到的,正如其名:自动化机器学习。
传统的AI模型训练往往要经历特征分析、模型选择、调参、评估等步骤,这些步骤需要经历数月的时间,如果完全没经验,时间会更长。AutoML虽然也需要经历这些步骤,但是通过自动化的方式,可以减少这些步骤的时间。
选择怎样的参数,被选择的参数是否有价值或者模型有没有问题,如何优化模型,这些步骤在从前是需要依靠个人的经验、知识或者数学方法来判断的。
而AutoML可以完全不用依赖经验,而是靠数学方法,由完整的数学推理的方式来证明。通过数据的分布和模型的性能,AutoML会不断评估最优解的分布区间并对这个区间再次采样。所以可以在整个模型训练的过程中缩短时间,提升模型训练过程的效率。
如何促进技术公平,降低技术应用门槛,让不懂技术的用户也可以使用人工智能;如何优化机器学习的流程和结果,辅佐数据科学家们投入更有价值的工作,正是 AutoML 以及人工智能领域未来希望攻克的难题之一。
在2018年谷歌云全球NEXT大会上,李飞飞宣布,谷歌AutoML Vision进入公共测试版,并推出了两款新的AutoML产品:AutoML Natural Language和AutoML Translation。
这个名为Cloud AutoML的宏大项目浮出水面之时,被业内称为“Google Cloud发展的战略转型”——一直以来面向机器学习人工智能开发者的Google Cloud,这次将服务对象转向了普罗大众。你只需在改系统中上传自己的标签数据,大能得到一个训练好的机器学习模型。整个过程,从导入数据到标记到模型训练,都可以通过拖放界面完成。
其实在谷歌发布AutoML前后,机器学习自动化的产品风潮已经吹起:2017年底,微软发布CustomVision.AI,涵盖图像、视频、文本和语音等各个领域。2018年 1 月,他们又推出了完全自动化的平台 Microsoft Custom Vision Services(微软定制视觉服务)。同年,国内也出现了不少相关产品,称能够解放算法工程师,让AI自动化,其中的代表即是百度的EasyDL
EasyDL 在 2017 年 11 月初上线了定制化图像识别服务,并在业内展开公开测试。在 2018 年 4 月、5 月和 7 月陆续发布了定制化物体检测服务、定制化模型设备端计算和定制化声音识别等多个定制化能力方向,并形成了从训练数据到最终定制化服务的一站式端云一体平台。
目前 EasyDL 的各项定制能力在业内广泛应用,累计过万用户,在包括零售、安防、互联网内容审核、工业质检等等数十个行业都有应用落地,并提升了这些行业的智能化水平和生产效率。
此外,旷视原创自研的人工智能算法平台Brain++也集成了行业领先的AutoML技术,对深度学习算法的各个关键环节进行自动化的设计、搜索和优化。
旷视Brain++ AutoML技术以One-Shot方法为核心,力图一次训练即可完成自动化过程,将计算代价减小至传统AutoML方法的万分之一,在可控的时间内搜索出高性能、易部署的模型结构。
相比于市场上的AutoML技术,旷视的AutoML技术有以下优势:
1. 计算代价小。传统的AutoML技术常常需要多次训练模型甚至会遍历部分模型空间,计算代价巨大。旷视的AutoML技术以one-shot方法为核心,只需训练一次即可得到整个模型空间的刻画,大大减小了计算代价,只是平常训练代价的1-3倍。
2. 应用范围广。旷视的AutoML技术提供了一套完整的解决方案,覆盖了大部分业务,包括活体检测、人脸识别、物体检测、语义分割等。
3. 部署方便。旷视的AutoML技术涵盖了数据处理、模型训练、模型压缩、模型量化等流程,自动处理从数据到落地。
4. 精度高。旷视的AutoML技术在诸多视觉任务上,超过人类手工设计,达到了业界最优。
#我国在人工智能领域的不足
上纽大计算机科学教授张峥用一个“人”字来形容目前中国人工智能技术的优势与不足。“中国的人口基数大,意味着市场需求巨大,这对促进人工智能发展来说十分有利。”他说,“与此同时,中国在智能领域的原创型尖端人才十分稀缺,这也是需要正视的问题。”张峥表示,以人工智能为例,我国科研界存在“零减”现象,即看似与国际发达水平差距为零,但依然长期落后。他认为,这一现象源于我们总是处于跟风状态,而不是超前地瞄向前沿。
毕马威中国科技及信息主管合伙人吴剑林则认为,中国拥有全球最大的商业市场,也拥有一大批优秀的数学人才,但需要做好产学研的整合工作,这样才能大力推进人工智能的发展与应用。
上海交通大学软件学院教授陈海波提出,上海人对于生活的高品质追求,也十分有利于把人工智能技术做到极致,相信这样的用户体验会在不同的领域里不断地呈现出来。
加州大学伯克利分校计算机系教授宋晓东对中国人工智能人才培养提出了自己的看法。她表示,中国学生在基础技能方面处于世界领先地位,但创新及独立思考能力相较于欧美学生则有所欠缺。“中国学生普遍重视短期成果,对于解决某一科学问题则好奇心不足,同时,中国学生还需要更多的自信心。”她说。