机器学习第一次作业
课程学习心得
经过这一个月的课程学习,算是对机器学习和模式识别这方面有了一定认识,毕竟以前也只是听说过,没有特地的进行了解。课程不知不觉已经过半了,但是相对已经学习的课程来说我掌握的东西并不是很多(学习果然还是在学校效率比较高)。这门课程涉及的数学知识很多,对于我这种线性代数知识已经忘的差不多的来说,很多公式推导起来确实很费劲,所以后面的课程在这方面要多下些努力。
前沿技术---自动化学习(AutoML)
AutoML问题定义
- 从机器学习角度讲,AutoML可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统。但是它强调必须非常容易使用。
- 从自动化角度讲,AutoML则可以看作是设计一系列高级的控制系统去操作机器学习模型,使得模型可以自动化地学习到合适的参数和配置而无需人工干预。
AutoML问题构成
AutoML的主要问题可以由三部分构成:特征工程、模型选择、算法选择。
特征工程
特征工程在机器学习中有着举足轻重的作用。在AutoML中,自动特征工程的目的是自动地发掘并构造相关的特征,使得模型可以有最优的表现。除此之外,还包含一些特定的特征增强方法,例如特征选择、特征降维、特征生成、以及特征编码等。这些步骤目前来说都没有达到自动化的阶段。
上述这些步骤也伴随着一定的参数搜索空间。第一种搜索空间是方法自带的,例如PCA自带降维参数需要调整。第二种是特征生成时会将搜索空间扩大。
模型选择
模型选择包括两个步骤:选择一个模型,设定它的参数。相应地,AutoML的目的就是自动选择出一个最合适的模型,并且能够设定好它的最优参数。
算法选择
对于算法选择,AutoML的目的是自动地选择出一个优化算法,以便能够达到效率和精度的平衡。常用的优化方法有SGD、L-BFGS、GD等。使用哪个优化算法、对应优化算法的配置,也需要一组搜索空间。
从全局看
将以上三个关键步骤整合起来看,一个完整的AutoML过程可以分成这么两类:一类是将以上的三个步骤整合成一个完整的pipeline;另一类则是network architecture search,能够自动地学习到最优的网络结构。在学习的过程中,对以上三个问题都进行一些优化。
基本的优化策略
一旦搜索空间确定,我们便可以实用优化器(optimizer)进行优化。这里,AutoML主要回答三个问题: - 选择的优化器可以作用在哪个搜索空间上? - 它需要什么样的反馈? - 为了取得一个好的效果,它需要怎样的配置?
简单的优化搜索方式包括grid search和random search。其中grid search被广泛使用。
从样本中进行优化的方法主要包括启发式搜索、derivative-free优化、以及强化学习方法。梯度下降法是一种重要的优化策略。
评价策略
基本的评价策略包括:
- 直接评价。直接在目标数据上进行评价。这是被使用最多的策略。
- 采样。当数据样本量非常大时,采样一些样本进行评价。
- Early stop。当遇到一些极端情况使得网络表现效果不好时,可以考虑进行early stop。
- 参数重用。将之前学习过的参数重复利用在新任务上。这在两种任务配置差不多时可用。
- 共轭评价。对于一些可量化的配置,可以用共轭评价法进行。
应用
- 使用Auto-sklearn进行模型选择。
- 使用强化学习进行neural architecture search。
- 使用ExploreKit进行自动特征构建。
展望
未来可能的研究方向:
- 提高AutoML的效率。
- 更明确的问题定义。
- 发展基本和高级的搜索策略。
- 找到更适合的应用。
我国在人工智能领域的不足
第一个方面,在人工智能产业发展这方面,应该说中国创新的基础还不是十分的牢靠。从《报告》分析来看,不管是人工智能论文的发表,还是人工智能技术专利的产出,中国企业在这方面跟国外同行相比,还是比较落后的,与学术研究形成对比。在全球AI论文产出最多的20家企业中,中国只占了一席之位,而且还是大家想都想不到的国家电网。而我们耳熟能详的其他中国在人工智能领域的领先企业,却看不到他们的身影,这是值得我们关注的。
第二个方面,是人才短板的问题。从国际人工智能人才投入数量来看,中国在人工智能方面的人才投入在全球是领先的,位列第二,仅次于美国。 但是,人工智能杰出人才中国占比很低,美国在人工智能杰出人才占比遥遥领先,累计高达5158人,占据世界总量的25.5%,是排名第二英国的4.4倍。在这方面,我们的差距非常大,还需要有一个长期的积累。也就是说,我们不光要培养出人工智能浩浩荡荡的人才大军,同时还要有大量顶尖的领军人才,这也是我们需要关注的。