2017 年 7月 23 日随笔档案 - 郑哲

2017年7月23日

摘要：考虑问题的预测Y从X∈R.下面左边的图显示拟合Y = θ0 +θ1X数据集的结果。我们看到数据并不是真的在直线上，所以拟合度不是很好。相反，如果我们增加一个额外的元素x2，并且去拟合y=θ0+θ1x+θ2x2。然后我们得到一个稍微好一些的数据（参见下图）。天真的是，似乎我们添加的元素越多越好。然阅读全文

posted @ 2017-07-23 20:14 郑哲阅读(491) 评论(0) 推荐(0) 编辑

多类分类：一对多

摘要：现在，我们将讨论数据分类时，我们有两个以上的类别。而Y = {0,1}我们将扩大我们的定义，Y = { 0,1…}。因为Y = { 0,1…}，我们把我们的问题转化为n + 1（+ 1因为索引从0开始）二分类问题；在每一个，我们预测，“Y”是我们的一个类成员概率。我们基本上是选择一类，然后将所有阅读全文

posted @ 2017-07-23 19:24 郑哲阅读(1250) 评论(0) 推荐(0) 编辑

先进的优化

摘要： “共轭梯度”、“BFGS”、和“L-BFGS”更成熟，更快的方法来优化θ可以用来代替梯度下降。我们建议您不要自己编写这些更复杂的算法（除非您是数字计算方面的专家），而是使用库，因为它们已经经过测试并高度优化。octave提供它们。我们首先需要一个函数来评价下面的两个函数为了输入θ：我们可以编写一阅读全文

posted @ 2017-07-23 19:20 郑哲阅读(115) 评论(0) 推荐(0) 编辑

简化成本函数和梯度下降

摘要：我们可以将成本函数的两个条件情形压缩为一个情形：注意到当y=1，那么=0也就是说没有效果。当y=0，那么=0。我们可以完全写出我们的全部成本函数如下：矢量化实现：梯度下降请记住，梯度下降的一般形式是：利用微积分可以求出导数的部分：注意，这个算法与我们在线性回归中使用的算法是一样的。我阅读全文

posted @ 2017-07-23 19:13 郑哲阅读(323) 评论(0) 推荐(0) 编辑

对数回归的成本函数

摘要：对于线性回归，我们不能使用相同的成本函数，因为logistic函数会导致输出波动，导致许多局部最优解。换句话说，它不是一个凸函数。相反，我们的逻辑回归的成本函数看起来像：当y = 1，我们得到如下图J（θ）与H(θ) 当y = 0，我们得到如下图J（θ）与H(θ) 如果我们的正确答案y是0，那么阅读全文

posted @ 2017-07-23 17:02 郑哲阅读(218) 评论(0) 推荐(0) 编辑

决策边界

摘要：为了得到离散的0或1分类，我们可以将假设函数的输出翻译如下：我们的逻辑函数g的行为方式是，当它的输入大于或等于零时，它的输出大于或等于0.5：记得. 所以如果我们输入g是θTX，那就意味着: 从这些陈述我们可以说：决策边界是分隔y＝0和y＝1的区域的直线。它是由我们的假设函数创建的。例子: 在阅读全文

posted @ 2017-07-23 16:53 郑哲阅读(603) 评论(0) 推荐(0) 编辑

假设表示

摘要：我们可以讨论分类问题，忽略y是离散值这一事实，并使用我们的旧线性回归算法来预测y给定x。然而，很容易构造例子，这种方法表现很差。直观地说，也没有道理当h（θ)（x）取值大于1或小于0时，我们知道，Y∈{ 0, 1 }。为了解决这个问题，让我们改变我们的假设H(θ)（x）满足0≤h(θ)（x）≤1。这阅读全文

posted @ 2017-07-23 16:45 郑哲阅读(210) 评论(0) 推荐(0) 编辑

分类

摘要：为了尝试分类，一种方法是使用线性回归，并将所有大于0.5的预测映射为1，所有小于0.5作为0。然而，这种方法不能很好地工作，因为分类实际上不是线性函数。分类问题和回归问题一样，除了我们现在要预测的值y只取一小部分离散值。现在，我们将重点讨论二进制分类问题，其中Y只能接受两个值，0和1。（我们在这里阅读全文

posted @ 2017-07-23 16:36 郑哲阅读(112) 评论(0) 推荐(0) 编辑

正规方程的可逆性

摘要：如果XTX不可逆：常见的原因可能是： 1.冗余特征，其中两个特征是非常密切相关的（即它们是线性相关的）。 2.太多的变量（例如M≤N）。在这种情况下，删除某些特性或使用“正则化”（后面的课中将对此进行解释）。解决上述问题的方法包括删除一个与另一个线性相关的特性，或者在有太多特性时删除一个或多个特性阅读全文

posted @ 2017-07-23 15:51 郑哲阅读(271) 评论(0) 推荐(0) 编辑

正规方程

摘要：梯度下降提供了一种最小化J的方法。让我们讨论第二种方法，这一次显式地执行最小化，而不用迭代算法。在“方程”的方法，我们将最大限度地减少J通过明确其衍生物相对于θJ的，并使其为零。这使我们能够在没有迭代的情况下找到最佳θ。下面给出正规方程公式。正规方程不需要进行特征缩放。下面是梯度下降和正规方程的阅读全文

posted @ 2017-07-23 14:40 郑哲阅读(228) 评论(0) 推荐(0) 编辑

特征与多项式回归

摘要：我们可以用几种不同的方法来改进我们的特征和假设函数的形式。我们可以把多个特征组合成一个。例如，我们可以将X1和X2为新变量x3。多项式回归：我们的假设函数不一定是线性的（如果不符合数据的话）。我们可以通过假设它的二次、三次或平方根函数（或任何其他形式）来改变我们的假设函数的行为或曲线。例如阅读全文

posted @ 2017-07-23 14:31 郑哲阅读(340) 评论(0) 推荐(0) 编辑

学习中的梯度下降Ⅱ-学习率

摘要：调试梯度下降。用x轴上的迭代数绘制一个图。现在测量成本函数，J（θ）随迭代次数下降。如果J（θ）不断增加，那么你可能需要减少α。自动收敛试验。如果该声明收敛（θ）小于E在一次迭代中减少，其中E是一些小的值，如10−3。然而，在实践中很难选择这个阈值。它已被证明，如果学习率α足够小，那么J（θ）每阅读全文

posted @ 2017-07-23 14:18 郑哲阅读(216) 评论(0) 推荐(0) 编辑

梯度下降在实践I -特征缩放

摘要：我们可以通过使每个输入值在大致相同的范围内加快梯度下降速度。这是因为θ下降很快在小范围和在大范围很慢，所以将振荡不到最佳当变量很不平衡防止这种情况的方法是修改输入变量的范围，使它们完全相同。理想的: 这些不是确切的要求，我们只是想加快速度。我们的目标是将所有输入变量大致放在其中一个范围内，或取一些阅读全文

posted @ 2017-07-23 14:06 郑哲阅读(146) 评论(0) 推荐(0) 编辑

多变量的梯度下降

摘要：梯度下降方程本身通常是相同的形式，我们只需重复它的“N”特征：换句话说：阅读全文

posted @ 2017-07-23 13:58 郑哲阅读(174) 评论(0) 推荐(0) 编辑

多个变量的线性回归

摘要：多元线性回归也被称为多元线性回归。我们现在介绍方程的符号，我们可以有任意数量的输入变量。 xj(i):第i个训练样本中的第j个变量。 x(i)：第i个训练样本中的变量。 m：训练样本的数量。 n：变量的个数。容纳这些多个特征的假设函数的多变量形式如下：为了开发这个功能的直觉，我们可以想一想，θ 阅读全文

posted @ 2017-07-23 13:52 郑哲阅读(463) 评论(0) 推荐(0) 编辑

线性回归的梯度下降

摘要： Note: [At 6:15 "h(x) = -900 - 0.1x" should be "h(x) = 900 - 0.1x"] 当具体应用于线性回归的情况下，可以推导出一种新的梯度下降方程。我们可以用我们实际的成本函数和我们实际的假设函数来代替，并将公式修改为：其中M是训练集的规模，θ0常数阅读全文

posted @ 2017-07-23 13:19 郑哲阅读(337) 评论(0) 推荐(0) 编辑

梯度下降的直觉

摘要：我们探讨的情况下，我们使用一个参数θ1和绘制其成本函数来实现梯度下降。我们对一个参数的公式是重复直至收敛：不管斜坡的标志是什么，θ1最终收敛到最小值。下面的图表显示，当斜率为负，价值θ1增加当它是正的，对θ1值减另一方面，我们应该调整参数α，以确保梯度下降算法在合理的时间内收敛。未能收敛或太多的阅读全文

posted @ 2017-07-23 09:23 郑哲阅读(325) 评论(0) 推荐(0) 编辑

梯度下降

摘要：所以我们有了我们的假设函数，我们有一种方法来测量它与数据的吻合程度。现在我们需要估计假设函数中的参数。这就是梯度下降的来源。想象我们图基于其领域θ0和θ1我们假设函数（实际上我们是图形的成本函数作为参数估计的函数）。我们不是绘制x和y本身，而是我们假设函数的参数范围和选择一组特定参数所产生的代价我们阅读全文

posted @ 2017-07-23 09:12 郑哲阅读(146) 评论(0) 推荐(0) 编辑

成本函数-直觉II

摘要：等高线图是包含许多等高线的图形。两个变量函数的等值线在同一直线的所有点上都有一个恒定值。这种图的一个例子是右下方的一个图。采取任何颜色和沿着'圈'，人们会期望得到相同的值的成本函数。例如，三个绿色的点上绿色线为J值相同（θ0，θ1）和作为一个结果，他们发现，在同一直线上。盘旋的X显示的成本函数在离阅读全文

posted @ 2017-07-23 09:04 郑哲阅读(397) 评论(0) 推荐(0) 编辑

成本函数的第一直觉

摘要：如果我们想在视觉方面的话，我们的训练数据集是散落在X-Y平面。我们试图使一个直线（Hθ定义（x）），通过这些散乱数据点。我们的目标是找到最好的路线。最好的线将是这样的，以便从线的散乱点的平均平方垂直距离将是最小的。理想情况下，该行应该通过我们训练数据集的所有点。在这种情况下，J值（θ0，θ1）将0 阅读全文

posted @ 2017-07-23 08:47 郑哲阅读(149) 评论(0) 推荐(0) 编辑