为主而活 - 博客园

决策树算法之CART

摘要： CART（Classification and Regression Tree），中文名为分类回归树，顾名思义，这种算法既可以完成分类任务，又可以完成回归模型。是1984年由Breiman等四英国人提出的。一、特点： 1.该算法是构建二元（Binary）分类回归树的算法，也即，，决策树在每次分叉阅读全文

posted @ 2020-07-04 17:18 为主而活阅读(687) 评论(0) 推荐(0) 编辑

决策树算法之C5.0

摘要： C5.0是对ID3算法的改进。 1.引入了分支度Information Value的概念。 C5.0是用哪个信息增益率作为判断优先划分属性的。信息增益率其实就是在信息增益除了分支度。分支度的计算公式如上，就是指，若某划分属性S将样本T划分成n个子集T1,T2,...Tn，则此属性S的分支度就等阅读全文

posted @ 2020-07-04 16:00 为主而活阅读(5010) 评论(0) 推荐(0) 编辑

决策树算法之ID3

摘要： ID3算法 ID3使用信息增益（information Gain）作为属性选择方法。信息增益基于信息论中熵（Entropy）的概念。熵是衡量一个节点不纯度的指标。熵越大，节点越不纯，当熵=0时，节点最纯。假设一个训练样本集T是含有t个数据的样本集合，假设T在类属性C上有n个不同的值，且在类属性C 阅读全文

posted @ 2020-07-04 15:26 为主而活阅读(554) 评论(0) 推荐(0) 编辑

MSE与MAE的区别与选择

摘要： MSE与MAE的区别与选择（摘自简书请不要问我是谁） 1.均方误差（也称L2损失）均方误差(MSE)是最常用的回归损失函数，计算方法是求预测值与真实值之间距离的平方和，公式如图。 2.平均绝对值误差（也称L1损失）平均绝对误差（MAE）是另一种用于回归模型的损失函数。MAE是目标值和预测值之差阅读全文

posted @ 2020-07-02 07:37 为主而活阅读(2474) 评论(0) 推荐(0) 编辑

（九）关键变量发掘技术

摘要：一、关键变量发掘技术（key attribute discovery techniques）关键变量发掘技术，其实，就是从数据集中的所有数据变量中找到那些影响分类模型最大的那些关键变量。 1.两种变量是必须需要剔除的。相关变量（redundant）：如果一个变量和另一个变量高度相关，这个时候，此阅读全文

posted @ 2020-06-29 07:02 为主而活阅读(344) 评论(0) 推荐(0) 编辑

（八）数据集切割

摘要：一、数据集切割我们通常将数据及切割成两部分：训练数据集（Training Dataset）;测试数据集（Testing Dataset）. 注意：可采用分层抽样的方式进行，以保持数据在目标字段上分布的一致性。 1.数据分割 • 80%训练数据→在训练数据上可以做任何的分析• 20%测试数据→在测试阅读全文

posted @ 2020-06-29 06:33 为主而活阅读(357) 评论(0) 推荐(0) 编辑

（七）数据精简之（数据值精简和字段的精简）

摘要：一、数据精简之数值精简 •1. 数据值精简的需求 • 原始数据中存在太细、过于底层的数据数值，对于许多数据挖掘方法而言，将无法从中找出层次较高、趋势导向的知识• 2.类别型数据数值精简 • 数据一般化(Data Generalization)• 3.连续型数据数值精简 • 数据离散化(Data Di 阅读全文

posted @ 2020-06-29 06:20 为主而活阅读(295) 评论(0) 推荐(0) 编辑

（六）数据精简之（数据记录精简）

摘要：数据精简之数据记录精简方法 1.数据记录精简的需求 • 随着数据表中的数据记录愈来愈多，有两个问题会浮现出来 • 整个数据挖掘所需的时间将跟着拉长 • 所有统计的方法通通失效2.数据记录精简对所获得的知识影响 • 求得之知识可能多少有些误差 • 然而当数据集合中存在无关、偏差的数据记录时，将数据记录阅读全文

posted @ 2020-06-28 07:30 为主而活阅读(437) 评论(0) 推荐(0) 编辑

（五）数据编码是干什么

摘要：一、数据编码主要三个数据正规化(Data Normalization) • 将数据重新分布在一个特定的范围内(0~1) • 年龄 VS. 年薪• 数据正规化的方法 • 极值正规化(Min-Max Normalization) • Z-分数正规化(Z-Score Normalization) 2.数阅读全文

posted @ 2020-06-28 07:04 为主而活阅读(954) 评论(0) 推荐(0) 编辑

（四）数据清洗主要工作

摘要：一. 数据清洗主要工作 • 噪声(Noise)消除 • 噪声包含错误值(类别型字段)及离群值(数值型字段) • 噪声使探勘结果有相当大的偏差，必须将噪声移除或将其做适当的处理 2. 空值(Missing Value)填补 • 人工填补• 自动填补二.噪声如何处理噪声侦测方法 • 针对类别型字段，阅读全文

posted @ 2020-06-27 18:33 为主而活阅读(1889) 评论(0) 推荐(0) 编辑

越儿爱美儿