2020年6月17日

摘要： ID3，C4.5算法缺点 ID3决策树可以有多个分支，但是不能处理特征值为连续的情况。在ID3中，每次根据“最大信息熵增益”选取当前最佳的特征来分割数据，并按照该特征的所有取值来切分，也就是说如果一个特征有4种取值，数据将被切分4份，一旦按某特征切分后，该特征在之后的算法执行中，将不再起作用，阅读全文

posted @ 2020-06-17 18:56 大码王阅读(1851) 评论(1) 推荐(0) 编辑

Python机器学习（十九）决策树之系列二—C4.5原理与代码实现

摘要： ID3算法缺点它一般会优先选择有较多属性值的Feature，因为属性值多的特征会有相对较大的信息增益，信息增益反映的是，在给定一个条件以后，不确定性减少的程度，这必然是分得越细的数据集确定性更高，也就是条件熵越小，信息增益越大。为了解决这个问题，C4.5就应运而生，它采用信息增益率来作为选择分支阅读全文

posted @ 2020-06-17 18:55 大码王阅读(1258) 评论(0) 推荐(0) 编辑

Python机器学习（十八）决策树之系列一ID3原理与代码实现

摘要：应用实例：你是否玩过二十个问题的游戏，游戏的规则很简单：参与游戏的一方在脑海里想某个事物，其他参与者向他提问题，只允许提20个问题，问题的答案也只能用对或错回答。问问题的人通过推断分解，逐步缩小待猜测事物的范围。决策树的工作原理与20个问题类似，用户输人一系列数据，然后给出游戏的答案。如下表假如阅读全文

posted @ 2020-06-17 18:53 大码王阅读(345) 评论(0) 推荐(0) 编辑

Python机器学习（十七）AdaBoost原理与代码实现

摘要：基本思路 Adaboost体现的是“三个臭皮匠，胜过一个诸葛亮”，它是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。训练过程如下（参考Andy的机器学习--浅析Adaboost算法，他说得非常形象，贴切。）阅读全文

posted @ 2020-06-17 18:51 大码王阅读(689) 评论(0) 推荐(0) 编辑

Python机器学习（十六）KNN原理与代码实现

摘要： 1. KNN原理 KNN（k-Nearest Neighbour）：K-近邻算法，主要思想可以归结为一个成语：物以类聚 1.1 工作原理给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的 k （k <= 20）个实例，这 k 个实例的多数属于某个类，就把该输入实例分为这个类。阅读全文

posted @ 2020-06-17 18:46 大码王阅读(763) 评论(0) 推荐(0) 编辑

Python机器学习（十五）朴素贝叶斯算法原理与代码实现

摘要：算法原理朴素贝叶斯是经典的机器学习算法之一，也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单，也很容易实现，多用于文本分类，比如垃圾邮件过滤。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立（条件特征独立）性和连续变阅读全文

posted @ 2020-06-17 18:44 大码王阅读(687) 评论(0) 推荐(0) 编辑

Python机器学习（十四）Logistic回归算法原理与代码实现

摘要：主要思想根据现有数据对分类边界线建立回归公式，以此进行分类，其核心是通过最优化算法寻找最佳回归系数（权重系数），主要应用于二分类。算法原理二分类的特点是非此即彼，其数学特性符合单位阶跃函数，在某一点会发生突变。这也符合我们现实当中的一些应用场景（比如分数从0 到 60会很容易，越往上你所花的时阅读全文

posted @ 2020-06-17 18:41 大码王阅读(475) 评论(0) 推荐(0) 编辑

Python机器学习（十三）最近邻居/k-近邻算法

摘要： KNN算法是一种基于实例的学习，或者是局部近似和将所有计算推迟到分类之后的惰性学习。用最近的邻居（k）来预测未知数据点。k 值是预测精度的一个关键因素，无论是分类还是回归，衡量邻居的权重都非常有用，较近邻居的权重比较远邻居的权重大。 KNN 算法的缺点是对数据的局部结构非常敏感。计算量大，需要对数据阅读全文

posted @ 2020-06-17 18:15 大码王阅读(562) 评论(0) 推荐(0) 编辑

Python机器学习（十二）支持向量机算法

摘要： 1. 解决什么问题？最基本的应用是数据分类，特别是对于非线性不可分数据集。支持向量机不仅能对非线性可分数据集进行分类，对于非线性不可分数据集的也可以分类（我认为这才是支持向量机的真正魅力所在，因为现实场景中，样本数据往往是非线性不可分的）。现实场景一：样本数据大部分是线性可分的，但是只是在样阅读全文

posted @ 2020-06-17 18:13 大码王阅读(1387) 评论(0) 推荐(0) 编辑

Python机器学习（十一）线性回归算法

摘要：回归分析（Regression Analysis）是统计学的数据分析方法，目的在于了解两个或多个变量间是否相关、相关方向与强度，并建立数学模型以便观察特定变量来预测其它变量的变化情况。线性回归算法（Linear Regression）的建模过程就是使用数据点来寻找最佳拟合线。公式，y = mx + 阅读全文

posted @ 2020-06-17 18:09 大码王阅读(382) 评论(0) 推荐(0) 编辑

Python机器学习（十）经典算法大全

摘要： 1.KNN 分类算法由于knn算法涉及到距离的概念，KNN 算法需要先进行归一化处理 1.1 归一化处理 scaler from sklearn.preprocessing import StandardScaler standardScaler =StandardScaler() standar 阅读全文

posted @ 2020-06-17 17:57 大码王阅读(1510) 评论(0) 推荐(0) 编辑

Python机器学习（九）简单神经网络

摘要：深度神经网络算法，是基于神经网络算法的一种拓展，其层数更深，达到多层，本文以简单神经网络为例，利用梯度下降算法进行反向更新来训练神经网络权重和偏向参数，文章最后，基于Python 库实现了一个简单神经网络算法程序，并对异或运算和0-9字符集进行预测。一、问题引入利用如下图像结构，通过训练集对其参阅读全文

posted @ 2020-06-17 16:23 大码王阅读(370) 评论(0) 推荐(0) 编辑

公告