摘要:
matplotlib 使用简明教程(一)-基础概念基本组成backend交互模式附:常用 backendMatplotlib 是一个用于绘制图表的 Python 库,可以用来处理图片、绘制统计类的图表。本文分为几篇,主要目的在于说明 Matplotlib 的一些使用方法。第一篇用于介绍 Matplo 阅读全文
摘要:
从数学上看,分布函数F(x)=P(X<x),表示随机变量X的值小于x的概率。这个意义很容易理解。概率密度f(x)是F(x)在x处的关于x的一阶导数,即变化率。如果在某一x附近取非常小的一个邻域Δx,那么,随机变量X落在(x, x+Δx)内的概率约为f(x)Δx,即P(x<X<x+Δx)≈f(x)Δx 阅读全文
摘要:
前言 分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE、R-Squared。下面一一介绍 均方误差(MSE) MSE (Mean Squared Error)叫做均方误差。看公式 image.png 这里的y是测试集上的。 用 真实值-预测值 然后平方之后求和平均。 猛 阅读全文
摘要:
大多数数据挖掘或数据工作中,异常值都会在数据的预处理过程中被认为是“噪音”而剔除,以避免其对总体数据评估和分析挖掘的影响。但某些情况下,如果数据工作的目标就是围绕异常值,那么这些异常值会成为数据工作的焦点。 数据集中的异常数据通常被成为异常点、离群点或孤立点等,典型特征是这些数据的特征或规则与大多数 阅读全文
摘要:
马氏距离就是将数据做了旋转,做了方差归一化之后再计算的欧氏距离 马氏距离在欧式距离的基础上增加了(公司中x、u表示两个不同的变量): 1. (xi-uj),欧式距离只有(xi-uj),即相同下标的x-u的乘积2. (xi-ui)(xj-uj)的前面增加了一个系数,这个系数是xi和ui的协方差(协方差 阅读全文
摘要:
因为下面所有的机器学习代码均使用了sklearn,这里也补充了一下Sklearn的学习博客: Python机器学习笔记:sklearn库的学习 地址:https://www.cnblogs.com/wj-1314/p/10179741.html Python机器学习笔记:使用sklearn做特征工程 阅读全文
摘要:
完整代码及其数据,请移步小编的GitHub 传送门:请点击我 如果点击有误:https://github.com/LeBron-Jian/MachineLearningNote 孤立森林(isolation Forest)是一种高效的异常检测算法,它和随机森林类似,但每次选择划分属性和划分点(值)时 阅读全文
摘要:
机器学习在各个领域都有广泛的应用,特别在数据分析领域有着深远的影响。决策树是机器学习中最基础且应用最广泛的算法模型。本文介绍了机器学习的相关概念、常见的算法分类和决策树模型及应用。通过一个决策树案例,着重从特征选择、剪枝等方面描述决策树的构建,讨论并研究决策树模型评估准则。最后基于 R 语言和 SP 阅读全文
摘要:
决策树—信息增益,信息增益比,Geni指数的理解 决策树 是表示基于特征对实例进行分类的树形结构 从给定的训练数据集中,依据特征选择的准则,递归的选择最优划分特征,并根据此特征将训练数据进行分割,使得各子数据集有一个最好的分类的过程。 决策树算法3要素: 特征选择 决策树生成 决策树剪枝 部分理解: 阅读全文
摘要:
完整代码及其数据,请移步小编的GitHub 传送门:请点击我 如果点击有误:https://github.com/LeBron-Jian/MachineLearningNote 前言 最近老板有一个需求,做单样本检测,也就是说只有一个类别的数据集与标签,因为在工厂设备中,控制系统的任务是判断是是否有 阅读全文