07 2021 档案
摘要:降维 1.1 目标1:数据压缩 Data Compression 现在来介绍第二个无监督学习:降维,降维的第一个作用就是压缩数据,允许我们使用较少的内存或磁盘空间,也加快算法速度 当我们发现特征中有一些特征是冗余的(比如:特征1是厘米,特征2是英尺),那么我们就需要通过降维来压缩数据 将二维降到一维
阅读全文
摘要:聚类 1.1 无监督学习简介 Unsupervised learning introduction 之前学习的监督学习都是在训练集有标签的前提下,找到一个决策边界来区别正类和负类 而无监督学习的训练集无标签的,通过算法对数据进行分类 无监督学习的应用: 1.2 K均值算法 K-means algor
阅读全文
摘要:支持向量机 1.1 优化目标 Optimization objective 与逻辑回归和神经网络相比,还有一种更加强大的算法是支持向量机(Support Vector Machine) ,它在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式并且广泛应用于工业界和学术界 我们通过回顾逻辑回归慢
阅读全文
摘要:机器学习系统设计 1.1 垃圾邮件分类 以垃圾邮件分类为例来学习机器学习系统设计,左边为垃圾邮件,右边为非垃圾邮件 建立一个垃圾邮件分类器,使用邮件中的单词作为特征,垃圾邮件和非垃圾邮件输出值分别用1和0表示,同时需要采用监督学习的方式,选择一个100个单词出来可以很好对垃圾邮件和非垃圾邮件进行区分
阅读全文
摘要:机器学习应用建议 1.1 决定下一步做什么 Deciding what to try next 当你使用一个模型进行测试后发现得到结果与真实值差异太大的时候,我们下一步该怎么办? 1. 获得更多的训练样本,2. 尝试缩小特征数,3. 尝试增大特征数,4. 尝试添加多项式的特征,5. 减小λ,6. 增
阅读全文
摘要:神经网络学习 1.1 代价函数 Cost function 假设我们神经网络的结构和训练集如下图,我们将用L表示神经网络的层数,sl表示第l层神经元的个数,在这个例子中L=4,s1=3,s2=5,s4=4 在分类问题上,分成了二分类和多分类问题,二分类的神经网络输出层就只有一个神经元(输出值),多分
阅读全文
摘要:神经网络的表述 1.1 非线性假设 Non-linear hypotheses 回顾一下之前讲到逻辑回归中的分类问题,它是采用非线性的方式去拟合的,之前只有两个特征,但其实在实际的机器学习中是有很多特征的,当特征数n=100时,如果采用平方项会得到5000个平方项,如果采用立方项会得到170000个
阅读全文
摘要:正则化 1.1 过拟合问题 The problem of overfitting 继续使用预测房屋价格的例子,我们希望得到一个函数可以拟合数据点,可以在左图中看到,它的拟合效果是比较差的。那在中间这个图里就有一个不错的拟合效果 最后看一下右图,虽然它拟合了所有的数据点,但它的曲线上下波动较大,并不能
阅读全文
摘要:逻辑回归 1.1 分类 Classification 垃圾邮箱分类、在线交易是否为欺诈、判断肿瘤是良性还是恶心这些问题都属于分类问题 先讨论二分类问题,预测值y的取值是0或者是1,0代表负类,一般表示没有,1代表正类,一般表示有。比如在肿瘤问题中,0代表没有恶性肿瘤(良性),1表示有恶性肿瘤 当然之
阅读全文
摘要:多变量线性回归 1.1 多维特征 Multiple features 继续以预测房屋价格为例,之前只有单变量,但在实际中是有多个变量(特征),比如除了房屋大小还有房间个数、房屋层数、房屋年限等 假设有m=47个样本 符号定义分别为: n:特征的数量 x(i):第i个训练样本 xj(i):第i个训练样
阅读全文