台大机器学习基石(1)
台大机器学习基石(1)
机器学习对于适用场景有一定的前提条件:
- 可以找到某种模式
- 不容易编程实现,不能对目标下一个简单的定义
- 能找到训练的数据,数据量越大越好
使用机器学习的一个小例子——银行信用卡批准
例如银行会收到申请客户的个人资料,然后根据个人信息进行分析,选择是否发放信用卡,以达到银行最大收益。
机器学习所扮演的角色就是训练出某种发卡策略。
数学描述:
- X:用户个人资料
- Y:是否要发卡
- 目标函数F:X->Y(F为目标函数,通过用户资料,得出是否发卡的策略)
- 训练数据D=
- 假设Hypothesis:G:X->Y的表现很好
如下图能够形象的表现出机器学习的数学过程。
这里面有个隐含的过程,也就是D数据集实际上是由某种理想化(不可知)的公式F演算得到的.
而机器学习的过程也只是在不断逼近,试图得到F,但是只能得到它的近似函数G,G约等于F。
那么在这个例子里,G会是怎么样的一种形式呢?接下来,就具体的讲一讲。
个人资料包含:年龄、性别、年收入、居住时间、工龄、负债。
G属于假设集合H{h1,h2,h3...}
h1:年收入>20万
h2:负债>8万
h3:工龄<=2年
......
机器学习过程就是为G挑集合H中选择最好的一个。
机器学习的模型就是指:演算法A与假设集合H。
因此总结:机器学习,根据数据D,计算出假设G,约等于目标函数F。
概念区分
机器学习与数据挖掘的关系
- 首先从两者的目标角度来讲,机器学习是通过数据找到某种Pattern,找到近似函数G;而数据挖掘则是通过数据找到当中有趣的元素。但是某些情况下,它们并不区分,因为有趣的元素可以是这个Pattern,这时它们的目标相同。
- 然后从它们的训练过程来讲,都是需要喂数据的。
- 接着,是由于数据挖掘的特点:数据挖掘是在大数据方面切入的,所以更加注重大数据的高效计算。
- 最后,它们之间是互相促进的,有时候发现了G,那也能帮助找到有趣重要的元素,反之也是。
机器学习与人工智能的关系
1.机器学习是实现人工智能的一种方式。
机器学习与统计学的关系
- 统计是实现机器学习的一种方法。
- 传统的统计学是从数学出发,更加注重假设与证明;机器学习从电脑出发,更注重怎么计算处理,而不只是数学上的证明等。
keep going