摘要:
本章主要通过一个应用实例——图片文字识别(Photo OCR),来讲解一个完整的机器学习问题中的相关概念。 Problem description and pipeline 本节主要讲解了什么是OCR,以及机器学习中流水线/管道(pipeline)的概念。 The Photo OCR problem 阅读全文
摘要:
本章主要讲解如何将大规模数据集运用到机器学习算法。 Learning with large datasets 从上面这幅图我们可以知道,数据集的规模往往比算法更重要,也就是说采用大数据量训练普通算法,效果也会比只拥有少量数据的优秀算法更好。 而大数据应用在机器学习算法上面最常见的问题就是运算量的问题 阅读全文
摘要:
本章主要讲解机器学习中的一个重要应用——推荐系统。 Problem formulation 本节课以预测电影评分为例,介绍了什么是推荐系统。 我们有5部电影和4个用户,要求用户从0-5对电影打分: 注:?表示用户没有打分的电影,也就是需要我们预测的电影。 前3部电影是爱情片,后2部电影是动作片,可以 阅读全文
摘要:
本章主要介绍异常检测(Anomaly detection)问题,这是机器学习算法的一个常见应用。这种算法的有趣之处在于,它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。 Problem motivation 主要介绍了什么是异常检测,以及其应用。 Anomaly detec 阅读全文
摘要:
本章主要讲解第二类无监督学习问题——降维。 Motivation I: Data Compression 本节课主要讲解降维的第一个作用——数据压缩。 数据压缩不仅能够降低对内存或磁盘空间的占用,更重要的是能加快我们的学习算法。 假设我们有两个特征,$x_1$用厘米表示,$x_2$用英寸表示,显然这 阅读全文
摘要:
Unsupervised learning introduction 通过和监督学习进行对比,简单介绍了无监督学习。 在一个监督学习问题中,我们的训练集是有标签(y)的,我们需要据此训练假设函数,来拟合出一个决策边界。 而在无监督学习问题中,我们的训练集是没有任何标签的,我们需要算法自己从这些数据中 阅读全文
摘要:
本章主要讲解支持向量机算法,也是最后一个详细讲解的监督学习算法。 Optimization objective 从逻辑回归算法引入到支持向量机(SVM,support vector machine)算法,讲解了支持向量机的数学定义。 Alternative view of logistic regr 阅读全文
摘要:
本章主要讲解机器学习系统的设计,给出一些构建复杂机器学习系统的建议,可以在构建大型机器学习系统时节约时间。 Prioritizing what to work on: Spam classification example 本章以构建一个垃圾邮件分类器为例讲解机器学习系统设计。 下面有两封邮件,左边 阅读全文
摘要:
Deciding what to try next 本章节主要讲解了在应用机器学习时的一些建议,重点关注的问题是假如你在开发一个机器学习系统,或者尝试改进一个机器学习系统的性能,你应该如何决定接下来选择哪条道路。 Debugging a learning algorithm 为了解释这个问题,我们继 阅读全文
摘要:
本章主要讲解如何求解神经网络的权重(参数)。 Cost Function 主要讲解了神经网络的代价函数(分类问题中的)。 Neural Network(Classification) 引入一些标记方法方便后续讨论: 假设神经网络有$m$个训练样本,每个训练样本包含一组输入特征$x$和一组输出信号$y 阅读全文
摘要:
当我们的特征值太多,模型太复杂时,之前学习的线性回归和逻辑回归都会遇到计算负荷太大的问题,所以我们需要学习神经网络。 Non-linear Hypotheses 本节课程主要通过示例讲解了引入神经网络的实际意义。 之前的一个例子: 在这个例子中,由于我们只有$x_1$和$x_2$两个特征值,所以即使 阅读全文
摘要:
之前讲解了机器学习中的回归问题,本章节主要讲解了另外一类问题——分类问题。 Classification 本节课引入了机器学习的另外一类问题——分类问题。 分类问题的应用: Email: Spam / Not Spam? Online Transactions: Fraudulent (Yes / 阅读全文
摘要:
Martrices and Vectors 主要介绍矩阵和向量的概念。 Martrices 矩阵:矩形的数字阵列,通常用大写字母表示。 Matrix: Rectangular array of numbers. 矩阵的维数:行数 \(\times\) 列数 Dimension of matrix: 阅读全文
摘要:
Model Representation 主要介绍单变量线性回归算法,以及监督学习的流程。 假如我们想要预测房价,那么,我们需要做的一件事就是构建一个模型,也许是一条直线,这样我们就能够通过房子的大小来预测对应的房价。 在监督学习中我们有一个数据集,这个数据集被称为训练集(Training Set) 阅读全文
摘要:
Welcome 简单介绍了什么是机器学习,以及机器学习能做什么。 Machine Learning AI的一个领域 计算机的一种新能力 Examples: Database mining 由于自动化程序以及Web的发展,产生了大量的数据,所以需要机器学习从中挖掘出重要的信息。 Application 阅读全文