关闭页面特效

随笔分类 - 人工智能之机器学习

python

摘要：ID3算法缺点它一般会优先选择有较多属性值的Feature，因为属性值多的特征会有相对较大的信息增益，信息增益反映的是，在给定一个条件以后，不确定性减少的程度，这必然是分得越细的数据集确定性更高，也就是条件熵越小，信息增益越大。为了解决这个问题，C4.5就应运而生，它采用信息增益率来作为选择分支阅读全文

posted @ 2020-06-17 18:55 大码王阅读(1273) 评论(0) 推荐(0) 编辑

Python机器学习（十八）决策树之系列一ID3原理与代码实现

摘要：应用实例：你是否玩过二十个问题的游戏，游戏的规则很简单：参与游戏的一方在脑海里想某个事物，其他参与者向他提问题，只允许提20个问题，问题的答案也只能用对或错回答。问问题的人通过推断分解，逐步缩小待猜测事物的范围。决策树的工作原理与20个问题类似，用户输人一系列数据，然后给出游戏的答案。如下表假如阅读全文

posted @ 2020-06-17 18:53 大码王阅读(351) 评论(0) 推荐(0) 编辑

Python机器学习（十七）AdaBoost原理与代码实现

摘要：基本思路 Adaboost体现的是“三个臭皮匠，胜过一个诸葛亮”，它是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。训练过程如下（参考Andy的机器学习--浅析Adaboost算法，他说得非常形象，贴切。）阅读全文

posted @ 2020-06-17 18:51 大码王阅读(701) 评论(0) 推荐(0) 编辑

Python机器学习（十六）KNN原理与代码实现

摘要：1. KNN原理 KNN（k-Nearest Neighbour）：K-近邻算法，主要思想可以归结为一个成语：物以类聚 1.1 工作原理给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的 k （k <= 20）个实例，这 k 个实例的多数属于某个类，就把该输入实例分为这个类。阅读全文

posted @ 2020-06-17 18:46 大码王阅读(794) 评论(0) 推荐(0) 编辑

Python机器学习（十五）朴素贝叶斯算法原理与代码实现

摘要：算法原理朴素贝叶斯是经典的机器学习算法之一，也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单，也很容易实现，多用于文本分类，比如垃圾邮件过滤。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立（条件特征独立）性和连续变阅读全文

posted @ 2020-06-17 18:44 大码王阅读(811) 评论(0) 推荐(0) 编辑

Python机器学习（十四）Logistic回归算法原理与代码实现

摘要：主要思想根据现有数据对分类边界线建立回归公式，以此进行分类，其核心是通过最优化算法寻找最佳回归系数（权重系数），主要应用于二分类。算法原理二分类的特点是非此即彼，其数学特性符合单位阶跃函数，在某一点会发生突变。这也符合我们现实当中的一些应用场景（比如分数从0 到 60会很容易，越往上你所花的时阅读全文

posted @ 2020-06-17 18:41 大码王阅读(488) 评论(0) 推荐(0) 编辑

Python机器学习（十三）最近邻居/k-近邻算法

摘要：KNN算法是一种基于实例的学习，或者是局部近似和将所有计算推迟到分类之后的惰性学习。用最近的邻居（k）来预测未知数据点。k 值是预测精度的一个关键因素，无论是分类还是回归，衡量邻居的权重都非常有用，较近邻居的权重比较远邻居的权重大。 KNN 算法的缺点是对数据的局部结构非常敏感。计算量大，需要对数据阅读全文

posted @ 2020-06-17 18:15 大码王阅读(571) 评论(0) 推荐(0) 编辑

Python机器学习（十二）支持向量机算法

摘要：1. 解决什么问题？最基本的应用是数据分类，特别是对于非线性不可分数据集。支持向量机不仅能对非线性可分数据集进行分类，对于非线性不可分数据集的也可以分类（我认为这才是支持向量机的真正魅力所在，因为现实场景中，样本数据往往是非线性不可分的）。现实场景一：样本数据大部分是线性可分的，但是只是在样阅读全文

posted @ 2020-06-17 18:13 大码王阅读(1405) 评论(0) 推荐(0) 编辑

Python机器学习（十一）线性回归算法

摘要：回归分析（Regression Analysis）是统计学的数据分析方法，目的在于了解两个或多个变量间是否相关、相关方向与强度，并建立数学模型以便观察特定变量来预测其它变量的变化情况。线性回归算法（Linear Regression）的建模过程就是使用数据点来寻找最佳拟合线。公式，y = mx + 阅读全文

posted @ 2020-06-17 18:09 大码王阅读(388) 评论(0) 推荐(0) 编辑

Python机器学习（十）经典算法大全

摘要：1.KNN 分类算法由于knn算法涉及到距离的概念，KNN 算法需要先进行归一化处理 1.1 归一化处理 scaler from sklearn.preprocessing import StandardScaler standardScaler =StandardScaler() standar 阅读全文

posted @ 2020-06-17 17:57 大码王阅读(1536) 评论(0) 推荐(0) 编辑

Python机器学习（九）简单神经网络

摘要：深度神经网络算法，是基于神经网络算法的一种拓展，其层数更深，达到多层，本文以简单神经网络为例，利用梯度下降算法进行反向更新来训练神经网络权重和偏向参数，文章最后，基于Python 库实现了一个简单神经网络算法程序，并对异或运算和0-9字符集进行预测。一、问题引入利用如下图像结构，通过训练集对其参阅读全文

posted @ 2020-06-17 16:23 大码王阅读(397) 评论(0) 推荐(0) 编辑

Python机器学习（八）之数据挖掘整体介绍

摘要：一、前言文中部分内容来自书籍和网络，部分内容为自己的理解。希望借助笔记的方式能够加深自己对该部分知识的掌握，也作为日后回顾的记录。二、基本概念很多小伙伴听到数据挖掘这四个字的时候很困惑，虽然字面意思大家都知道，但是数据挖掘到底是个什么东西，需要用到什么技术来实现却并不了解，下面我们就来剖析一下阅读全文

posted @ 2020-06-08 18:47 大码王阅读(385) 评论(0) 推荐(0) 编辑

Python机器学习（七）什么是数据挖掘入门介绍？

摘要：近年来，数据分析，数据挖掘和数据科学等领域不可谓不火热。而且人工智能、算法、数据科学领域的薪酬普遍高于传统互联网行业。既然决定从事互联网行业，那就得给自己找一个不错的方向，并为之不断学习~ 数据挖掘的概念：数据挖掘可以简单的理解为从大量数据中提取或挖掘知识或者说是知识发现。数据挖掘应用了众多领域阅读全文

posted @ 2020-06-08 18:45 大码王阅读(330) 评论(0) 推荐(0) 编辑

python机器学习（六）回归算法-逻辑回归

摘要：一、概述 1.1、概念是一种名为“回归”的线性分类器，是由线性回归变化而来的，一种广泛使用于分类问题中的广义回归算法。 1.2、按预测标签的数据类型分连续型变量：通过线性回归方程z，线性回归使用输入的特征矩阵X来输出一组连续型的标签值y_pred，以完成各种预测连续型变量的任务（比如预测产品销量阅读全文

posted @ 2020-06-06 23:50 大码王阅读(1445) 评论(0) 推荐(0) 编辑

python机器学习（五）回归算法-线性回归

摘要：一、线性回归的概念 1.1、定义线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合。优点：结果易于理解，计算不复杂。缺点：对非线性的数据拟合不好。适用数据类型：数值型和标称型。 1.2、分类一元线性回归：涉及到的变量只有一阅读全文

posted @ 2020-05-20 11:46 大码王阅读(3968) 评论(0) 推荐(1) 编辑

python机器学习（四）分类算法-决策树

摘要：一、决策树的原理决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法。二、决策树的现实案例相亲相亲决策树女儿：多大年纪了？母亲：26。女儿：长的帅不帅？母亲：挺帅的。女儿：收入高不？母亲：不算很高，中等阅读全文

posted @ 2020-05-20 11:44 大码王阅读(1419) 评论(0) 推荐(0) 编辑

python机器学习（三）分类算法-朴素贝叶斯

摘要：一、概率基础概率定义：概率定义为一件事情发生的可能性，例如，随机抛硬币，正面朝上的概率。联合概率：包含多个条件，且所有条件同时成立的概率，记作：𝑃(𝐴,𝐵) 。条件概率：事件A在另外一个事件B已经发生条件下的发生概率，记作：𝑃(𝐴|𝐵) 。P(A1,A2|B) = P(A1|B)P 阅读全文

posted @ 2020-05-20 11:42 大码王阅读(815) 评论(0) 推荐(1) 编辑

python 机器学习（二）分类算法-k近邻算法

摘要：一、什么是K近邻算法？定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。来源: KNN算法最早是由Cover和Hart提出的一种分类算法. 计算距离公式: 两个样本的距离可以通过如下公式计算，又叫欧式距离。比如说，a(a1 阅读全文

posted @ 2020-05-20 11:41 大码王阅读(1046) 评论(0) 推荐(0) 编辑

python 机器学习（一）机器学习概述与特征工程

摘要：一、机器学习概述 1.1、什么是机器学习？机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测 1.2、为什么需要机器学习？解放生产力，智能客服，可以不知疲倦的24小时作业解决专业问题，ET医疗，帮助看病提供社会便利，例如杭州的城市大脑 1.3、机器学习应用场景自然语言阅读全文

posted @ 2020-05-20 09:53 大码王阅读(646) 评论(0) 推荐(0) 编辑

公告

青青陵上柏，磊磊涧vj1

运行时长：2258天0小时58分9秒

您的浏览器不兼容canvas

昵称：大码王
园龄： 5年8个月
粉丝： 233
关注： 30

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (719)

clickhouse(4)

flink源码分析(2)

Groovy(1)

Java(34)

Linux(3)

office(10)

OpenStack入门(1)

Phoenix+hbase(11)

photoshop(10)

python之绘图(7)

python之爬虫(15)

python之入门到实战(26)

shell大全(1)

SparkCore(14)

sparkGraphx(2)

sparksql(8)

sparkstreaming(17)

spark源码分析(11)

博客园美化(6)

操作系统(1)

随笔档案 (693)

2024年5月(4)

2024年3月(3)

2023年9月(1)

2023年4月(2)

2023年3月(4)

2023年2月(1)

2022年12月(1)

2022年11月(1)

2022年9月(2)

2022年8月(17)

2022年7月(5)

2022年5月(3)

2022年4月(18)

2021年9月(1)

2021年6月(9)

2021年5月(19)

2021年2月(1)

2021年1月(17)

2020年12月(7)

2020年11月(19)

文章分类 (35)

airflow(4)

azkban(1)

canal(1)

Cassandra(1)

datax(1)

druid(1)

Elasticsearch(8)

java(11)

mongodb(2)

redis(3)

scala(2)

文章档案 (40)

2024年4月(2)

2023年5月(2)

2023年4月(1)

2023年1月(1)

2020年6月(9)

2020年5月(25)

随笔分类 - 人工智能之机器学习

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (719)

随笔档案 (693)

文章分类 (35)

文章档案 (40)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏