摘要: (1)涉及到的算法 1.监督学习:线性回归,逻辑回归,神经网络,SVM。 线性回归(下面第三行x0(i)其实是1,可以去掉) 逻辑回归 神经网络(写出前向传播即可,反向框架会自动计算) SVM 2.非监督学习:聚类算法(K-mean),降维(PCA) K-mean PCA 3.异常检测 4.推荐系统 阅读全文
posted @ 2019-08-02 18:55 你的雷哥 阅读(826) 评论(0) 推荐(0) 编辑
摘要: 18.1问题描述和流程图 (1)图像文字识别是从给定的一张图片中识别文字。 (2)流程包括: 1.文字侦测 2.字符切分(现在不需要切分了) 3.字符分类 18.2滑动窗口 在行人检测中,滑动窗口是首先训练一个固定尺寸输入的判断是否有行人的网络,然后在一张图片中裁该尺寸的图片,送入到网络中;然后不断 阅读全文
posted @ 2019-08-02 17:53 你的雷哥 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 16.1问题形式化 (1)讲推荐系统的原因主要有以下几点: 1.推荐系统是一个很重要的机器学习的应用,虽然在学术界上占比较低,但是在商业应用中非常的重要,占有很高的优先级。 2.传达机器学习的一个大思想:特性是可以学习而来的,不需要人工去选择。 (2)说明的案例:电影推荐系统 希望创建一个算法来预测 阅读全文
posted @ 2019-08-02 17:52 你的雷哥 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 17.1大型数据集的学习 首先通过学习曲线判断是否增大数据集有效: 高方差时(交叉验证集误差减去训练集误差大时)增加数据集可以提高系统。下图中左图增加数据集有效,右图无效。 17.2随机梯度下降法 随机梯度下降法是只使用一个样本来迭代,其损失函数为: 迭代过程为: 特点: (1)计算量小,迭代速度快 阅读全文
posted @ 2019-08-02 17:46 你的雷哥 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 15.1问题的动机 将正常的样本绘制成图表(假设可以),如下图所示: 当新的测试样本同样绘制到图标上,如果偏离中心越远说明越可能不正常,使用某个可能性阈值,当低于正常可能性阈值时判断其为异常,然后做进一步的检查。异常检测常用于工业生产、异常用户等实际场景中。 以上这种方法叫密度评估: 15.2高斯分 阅读全文
posted @ 2019-08-02 15:44 你的雷哥 阅读(387) 评论(0) 推荐(0) 编辑
摘要: Q1动机一:数据压缩 将特征进行降维,如将相关的二维降到一维: 三维变二维: 以此类推把1000维数据降成100维数据。减少内存占用的空间 Q2动机二:数据可视化 如50个维度的数据是无法进行可视化的,使用降维的方法可以使其降到2维,然后进行可视化。 降维的算法只负责减少维度,新产生的特征的意义就必 阅读全文
posted @ 2019-08-02 12:08 你的雷哥 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 13.1无监督学习:简介 将没有标签的样本分成不同的集合(簇),这种算法叫做聚类。常用的领域有市场分割、社交网络分析、计算机集群管理、了解星系等。 13.2K-均值算法 (1)K-均值是最普及的聚类算法,是一种迭代算法,假设需要将数据聚类成n个组,这时候首先随机选择K个点,称为聚类中心。 将每个样本 阅读全文
posted @ 2019-08-02 10:13 你的雷哥 阅读(261) 评论(0) 推荐(0) 编辑