周志华机器学习1_典型的机器学习过程、计算学习理论、基本术语
适用于全局的叫模型;适用于局部的叫模式;
机器学习就是关于学习算法的设计分析及应用的一门学问。所以研究的核心是学习算法,而学习算法会导致你会直接获得什么样的模型,所以你要对模型性质研究,而模型的性质很多时候来源于算法,而算法并不是每次都得到同样的一个模型,因为算法是应用到数据上。所以这几方面联系起来后,才能够知道整个机器学习的过程最后得到什么。
一个算法针对什么样的数据是有效的,这样的数据需要满足什么样的特点,而算法产生的模型又在什么样的情况下会有效,这样的模型本身又具有什么样的特点,这些是需要特别了解和把握的。
机器学习绝对不是瞎猜的一个过程,它是有很坚实的理论基础做指导的。
机器学习通常解决这样的问题:问题具有高度的不确定性,高度的复杂性,而且甚至你都不知道如何去做这个问题。
e.g. 做故障诊断,比如告诉你温度高于90度时一定会出问题,那么这个就可以当做一个确定的知识/规则/公式;但是有时候没有这么清楚的理解/知识, 好像大于和小于90度都会出现问题;而另外其他的因素也结合进来,对机器是否产生故障起作用。但是不知道这些因素之间的关系,以及不知道这些因素如何对结果产生影响。这时才会用机器学习。当我们的知识已经没法给我们精确结果时,我们从数据里面分析希望从数据里面得到答案;此时就不能指望得到的答案是100%的准确的。因为他不是那种我们可以清楚了解的问题。
以上是从问题的性质方面来了解。
下面换一个角度,从计算的要求来了解。P ?= NP;
P问题是指我们在多项式时间中,能找到问题的解;
NP问题是在多项式时间中给你一个解,你能判断他是否是解。
机器学习的问题,比如google你给他一个关键词,他给你提供搜索结果,那你能否在多项式时间内,给出最大结果;或者给你一个查询,那么你是否在多项式时间内来告诉我,这个查询是否是最优的。所以说我们经常处理的问题的难度已经在NP问题之外了。也就是说我们经常遇到的问题是,哪怕给了你解,你能否在多项式时间内验证这个解有多好你都不能做到。参考:https://www.bilibili.com/video/BV1vR4y1X7XK?p=5&spm_id_from=pageDriver&vd_source=3ad05e655a5ea14063a9fd1c0dcdee3e
从6分钟左右开始。
机器学习就是以很高的概率得到一个很好的模型。所以是概率近似正确。