「吴恩达机器学习」1.绪论:初识机器学习
Welcome
简单介绍了什么是机器学习,以及机器学习能做什么。
Machine Learning
- AI的一个领域
- 计算机的一种新能力
Examples:
-
Database mining
由于自动化程序以及Web的发展,产生了大量的数据,所以需要机器学习从中挖掘出重要的信息。
-
Application can't program by hand
有些程序无法通过人工编写代码的方式实现,所以只能通过机器学习。
E.g., 自动驾驶直升机、手写识别、NLP、CV
-
Self-custiomizing programs
某些客制化的程序,比如个性化推荐服务。
-
Understanding human learning(brain, real AI)
What is machine learning
主要讲解了什么是机器学习,以及机器学习中的一些概念。
Machine Learning Definition
机器学习在业内并没有一个统一的定义,所以给出了其中的两个定义。
- Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.
- Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
对于一个垃圾分类的程序,如果参考Tom Mitchell的定义,分别指出P、T和E的部分。
Suppose your email program watches which emails you do or do not mark as spam, and based on that learns how to better filter spam.
- T: Classifying emails as spam or not spam.
- E: Watching you label emails as spam or not spam.
- P: The number (or fraction) of emails correctly classified as spam/not spam.
机器学习最常见的两类算法(也是本课程的重点介绍内容):
- 监督学习
- 无监督学习
还有其他的一些算法:强化学习、推荐系统。
同时本节课程还会讲解应用学习算法过程中的一些实操建议。
Supervised Learning
主要讲解监督学习的例子以及相关概念,包括回归和分类。
Housing price prediction
首先从一个预测房价的例子引入,我们有房子大小以及对应价格的一个数据集:
假如我们想要预测一间面积为750的房子的售价,那么我们可以在图上画出一条直线,然后预测房价大概为150;如果我们在图上画出一条曲线,那么预测出来的房价大概是200.
上面的问题就是一个监督学习的例子,我们提供了“正确答案”(真实的房价)。同时,这也是一个回归问题,我们的输出是连续的值。
Breast cancer (malignant, benign)
另外一个问题是肿瘤的预测,我们想要通过肿瘤的大小来预测这个肿瘤为良性还是恶性。
这是一个分类问题,我们的输出是离散值,0或1,分别代表良性和恶性。
我们这里只选取了肿瘤大小这一个特征,其实还有很多其他的特征:
我们要做的就是找到中间这条直线,可以划分良性肿瘤和恶性肿瘤。
Unsupervised Learning
主要介绍第二种主要的机器学习问题,无监督学习。
在前面介绍的监督学习问题中,我们的数据集中每条数据都是有标签的,比如下图的⭕️和✖️。
![](https://tva1.sinaimg.cn/large/007S8ZIlgy1ges9mppl31j30wu0u0djb.jpg)
而在无监督学习问题中,我们的数据集是没有任何标签的,然后希望通过无监督学习来找到某种结构。
![](https://tva1.sinaimg.cn/large/007S8ZIlgy1ges9mq0h2vj30wc0u00xb.jpg)
比如聚类算法可能就会把上面的数据集分成两个不同的簇(cluster)。
聚类算法的另一个应用是在新闻网站中,新闻网站常常会把相同内容的报道放到同一个地方,进行分类。
无监督学习的应用:
-
Organize computing clusters
组织大型计算机集群,让机器协同工作。
-
Social network analysis
社交网络分析,比如对社交好友进行自动分组。
-
Market segmentation
市场划分,自动地发现市场分类,同时把顾客划分到不同的细分市场中。
-
Astronomical data analysis
天文数据分析,解释星系的诞生。
Cocktail party problem
鸡尾酒会问题是一个语音识别的问题,指的是在一个鸡尾酒会上,会有一群人同时说话,声音混合到一起形成混合信号,如何分理出同时说话的每个人的独立信号的问题。
![](https://tva1.sinaimg.cn/large/007S8ZIlgy1ges9yo8b96j31630u07gs.jpg)