上一页 1 2 3 4 5 6 7 8 ··· 11 下一页
摘要: 目标一:数据压缩 除了聚类,还有第二种类型的无监督学习问题称为降维。有几个不同的的原因使你可能想要做降维。一是数据压缩,数据压缩不仅允许我们压缩数据,因而使用较少的计算机内存或磁盘空间,而且它也让我们加快我们的学习算法。 我们收集的数据集,有许多,许多特征,我绘制两个在这里。 假设我们未知两个的特征 阅读全文
posted @ 2019-03-12 06:19 chalee3 阅读(700) 评论(0) 推荐(0) 编辑
摘要: 一、K均值算法的优化目标 K-均值最小化问题,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此 K-均值的代价函数(又称畸变函数 Distortion function)为: 其中𝜇𝑐(𝑖)代表与𝑥(𝑖)最近的聚类中心点。 我们的的优化目标便是找出使得代价函数最小的 𝑐( 阅读全文
posted @ 2019-03-11 19:23 chalee3 阅读(1057) 评论(0) 推荐(0) 编辑
摘要: K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。 K-均值是一个迭代算法,假设我们想要将数据聚类成n 个组,其方法为: 首先选择𝐾个随机的点,称为聚类中心(cluster centroids); 对于数据集中的每一个数据,按照距离𝐾个中心点的距离,将其与距离最近 阅读全文
posted @ 2019-03-11 07:04 chalee3 阅读(545) 评论(0) 推荐(0) 编辑
摘要: 本篇我们讨论如何运行或者运用SVM。 在高斯核函数之外我们还有其他一些选择,如:多项式核函数(Polynomial Kernel)字符串核函数(String kernel)卡方核函数( chi-square kernel)直方图交集核函数(histogram intersection kernel) 阅读全文
posted @ 2019-03-10 19:53 chalee3 阅读(507) 评论(0) 推荐(0) 编辑
摘要: 回顾我们之前讨论过可以使用高级数的多项式模型来解决无法用直线进行分隔的分类问题: 为了获得上图所示的判定边界,我们的模型可能是𝜃0 + 𝜃1𝑥1 + 𝜃2𝑥2 + 𝜃3𝑥1𝑥2 + 𝜃4𝑥²1 +𝜃5𝑥²2 + ⋯的形式。 我们可以用一系列的新的特征f 来替换模型中的每一项。 阅读全文
posted @ 2019-03-09 04:16 chalee3 阅读(2250) 评论(0) 推荐(1) 编辑
摘要: 假设我有两个向量,𝑢和𝑣,我将它们写在这里。两个都是二维向量,我们看一下,𝑢𝑇 𝑣的结果。𝑢𝑇 𝑣也叫做向量𝑢和𝑣之间的内积。由于是二维向量,我可以将它们画在这个图上。 我们说,这就是向量𝑢即在横轴上,取值为某个𝑢1,而在纵轴上,高度是某个𝑢2作为𝑢的第二个分量。现在,很 阅读全文
posted @ 2019-03-08 22:51 chalee3 阅读(911) 评论(0) 推荐(1) 编辑
摘要: 这是我的支持向量机模型的代价函数,在左边这里我画出了关于𝑧的代价函数cos𝑡1(𝑧),此函数用于正样本,而在右边这里我画出了关于𝑧的代价函数cos𝑡0(𝑧),横轴表示𝑧,现在让我们考虑一下,最小化这些代价函数的必要条件是什么。如果你有一个正样本,𝑦 = 1,则只有在𝑧 >= 1时, 阅读全文
posted @ 2019-03-08 04:55 chalee3 阅读(1342) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-03-06 23:43 chalee3 阅读(535) 评论(0) 推荐(0) 编辑
摘要: 在很多应用中,我们希望能够保证查准率和查全率的相对平衡。 我们可以将不同阀值情况下,查全率与查准率的关系绘制成图表,曲线的形状根据数据的不同而不同: 我们希望有一个帮助我们选择这个阀值的方法。一种方法是计算F1 值(F1 Score),其计算公式为: 我们选择使得F1 值最高的阀值。 阅读全文
posted @ 2019-03-06 04:34 chalee3 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 如果你准备研究机器学习的东西,或者构造机器学习应用程序,最好的实践方法不是建立一个非常复杂的系统,拥有多么复杂的变量;而是构建一个简单的算法,这样你可以很快地实现它。 构建一个学习算法的推荐方法为:1. 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法2. 绘制学习曲线,决 阅读全文
posted @ 2019-03-06 03:19 chalee3 阅读(395) 评论(0) 推荐(1) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 11 下一页