coursera_吴恩达_机器学习_第一周
-
机器学习的定义:
1.Arthur Samuel, 在进行特定编程的情况下,给予计算机学习能力的领域。
2.Tom Mitchell,一个程序被认为能从经验E中学习,解决任务 T,达到 性能度量值P,当且仅当,有了经验E后,经
过P评判, 程序在处理 T 时的性能有所提升。
监督学习定义:
In supervised learning, we are given a data set and already know what our correct output should look like,
having the idea that there is a relationship between the input and the output.
我们已知训练所用样本的类别,如在训练时,我们想通过一组病人的肿瘤的大小等信息,去预测肿瘤是良性还是恶性,所给定
的数据会标明某组肿瘤信息属于良性还是恶性,即正样本和负样本。
回归问题和分类问题:
回归问题示例:你有一大堆一模一样的东西 想象一下,你有成千上万份相同商品的复制品 你要预测在未来三个月内你会卖出多少这样的商品。
分类问题示例:你有很多用户 你想要编写软件来检查你客户的每个账户 每个客户的账户 对于每个帐户,决定该帐户是否已被黑或泄露 。
非监督学习定义:
与监督学习不同,再非监督学习中,所给定的样本并没有正负之类的标签,所有的数据除了内容并没有区别。
无监督学习,它是一种学习机制,你给算法大量的数据,要求它找出数据中蕴含的类型结构。
Unsupervised learning allows us to approach problems with little or no idea what our results should look like. We can derive
structure from data where we don't necessarily know the effect of the variables.
We can derive this structure by clustering the data based on relationships among the variables in the data.
With unsupervised learning there is no feedback based on the prediction results.
线性回归 (linear regression)模型:
单变量:
多变量:
通过样本数据训练模型,再通过所得模型预测给定X的输出Y
损失函数:
模型输出的预测值与实际值之间的差。而我们训练模型时,需要尽可能减小损失值。
当选取的参数θ值不同,会得到不同的预测函数H,输出的预测值和实际给定的样本值的差距也会不同,即损失函数不同。
如下图:
梯度下降法:
梯度下降是很常用的算法,它不仅被用在线性回归上,而且被广泛的应用于机器学习领域中的众多领域。
为了最小化损失函数,使用梯度下降法时:从最初的θ开始,不断改变θ1,θ2的值,知道损失函数下降为最小值,如上图中到达最低点的过程。
上图公式为θ值最小化的过程中每一步的运算公式,注意每一步中θ1,θ2的值要同时改变。
α的值的选取对梯度下降的过程也有很大影响:
α过大,可能会导致损失函数永远达不到最低值,相反会不断远离最低值;
α过小,会导致到达最低点所需的迭代次数过多,整个过程所需时间增加。
将梯度下降法应用于线性回归模型
通过梯度下降法最小化损失函数J,得到h的最优解。
重复上述过程,得到新的θ值,不断迭代,直到抵达最小值。
线性代数中矩阵知识回顾,包括矩阵的四则元素,矩阵转置,矩阵求逆等。
转载请注明出处