摘要: 时间过得很快,这篇文章已经是机器学习入门系列的最后一篇了。短短八周的时间里,虽然对机器学习并没有太多应用和熟悉的机会,但对于机器学习一些基本概念已经差不多有了一个提纲挈领的了解,如分类和回归,损失函数,以及一些简单的算法——kNN算法、决策树算法等。 那么,今天就用聚类和K Means算法来结束我们 阅读全文
posted @ 2019-12-23 11:54 DrChuan 阅读(494) 评论(0) 推荐(0) 编辑
摘要: 1. 认识决策树 在Wikipedia的决策树词条中,有如下概念: 统计学,数据挖掘和机器学习中的决策树训练,使用 决策树 作为预测模型来预测样本的类标。这种决策树也称作 分类树 或 回归树 。在这些树的结构里, 叶子节点给出类标而内部节点代表某个属性。在数据挖掘中决策树训练是一个常用的方法。目标是 阅读全文
posted @ 2019-12-16 13:57 DrChuan 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 1. 逻辑回归简介 在前面的学习中,我们学习了用于分类的kNN算法,用于回归的线性回归算法,并分析了它们的损失、风险等方面的特性。 本文将继续探讨另一个机器学习的算法—— 逻辑回归 。 首先明确一下方向,逻辑回归算法,虽然名为回归,但它并不是用来解决回归问题,而是一种分类问题的算法。 你可能会问,既 阅读全文
posted @ 2019-12-12 15:34 DrChuan 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 1. 梯度下降法介绍 1.1 梯度 在多元函数微分学中,我们都接触过梯度(Gradient)的概念。 回顾一下,什么是梯度? 梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。 这是百度百科 阅读全文
posted @ 2019-12-03 21:00 DrChuan 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 在前面的3篇文章中,我们借助kNN算法介绍了机器学习中的分类问题。 总的来说,分类(classification)和回归(regression)是机器学习中的两大类问题。它们其实都是在做同一件事情——将输入转化为输出。区别在于,分类得到的输出是离散值,例如之前的癌症问题中的良性(0)和恶性(1);而 阅读全文
posted @ 2019-11-25 15:07 DrChuan 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 1. 数据归一化 1.1 医疗事故?——之前的kNN算法哪里出了问题? 在之前讲kNN算法时我们举过的肿瘤的例子中,有一个问题,也许很多读者没有考虑过。 回顾一下,kNN算法的第一步是求最为邻近的k个点,也就是要先求每个数据点与待预测的数据点的距离。我们仍然以p=2的明可夫斯基距离(欧拉距离)为例。 阅读全文
posted @ 2019-11-18 14:53 DrChuan 阅读(543) 评论(0) 推荐(0) 编辑
摘要: 0. 前情回顾 上一周的文章中,我们通过kNN算法了解了机器学习的一些基本概念。我们自己实现了简单的kNN算法,体会了其过程。这一周,让我们继续机器学习的探索。 1. 数据集的拆分 上次的kNN算法介绍中,我们只是简单地实现了这样一个算法,并用一组测试数据进行了测试。 然而,在真正的工程应用中,我们 阅读全文
posted @ 2019-11-17 20:00 DrChuan 阅读(513) 评论(0) 推荐(0) 编辑
摘要: 0. 写在前面 近日加入了一个机器学习的学习小组,每周按照学习计划学习一个机器学习的小专题。笔者恰好近来计划深入学习Python,刚刚熟悉了其基本的语法知识(主要是与C系语言的差别),决定以此作为对Python的进一步熟悉和应用。所以,在接下里的八周里,将每周分享一篇机器学习的心得笔记。呐,现在开始 阅读全文
posted @ 2019-11-05 20:52 DrChuan 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 散列(Hash)是一种以常数复杂度实现查找功能的数据结构。它将一个关键词Key,通过某种映射(哈希函数)转化成索引值直接定位到相应位置。 实现散列有两个关键,一是哈希函数的选择,二是冲突的处理。 对于哈希函数,例程中以“Key为int型,操作为取(关于表长的)模”为例。事实上,可以直接将其换成任何一 阅读全文
posted @ 2019-08-12 20:24 DrChuan 阅读(395) 评论(0) 推荐(0) 编辑
摘要: 上次我们已经实现了普通的二叉查找树。利用二叉查找树,可以用O(logN)高度的树状结构存储和查找数据,提高了存储和查找的效率。 然而,考虑一种极端情形:依次插入1,2,3,4,5,6,7,8,9九个元素,形成的二叉查找树实际上是一个线性表,每层只有一个元素,元素数与层数相同。 事实上,不只这一种情形 阅读全文
posted @ 2019-08-11 17:27 DrChuan 阅读(264) 评论(0) 推荐(0) 编辑