机器学习 - 随笔分类 - Parallax

Boosting算法

摘要：为什么要找负梯度？函数值沿着梯度的方向增加的最快，逆着梯度的方向函数值减小的最快。因此我们用上一个学习器f_T-1与目标值y的差距（注意：是损失函数而不是原始的偏差y_i - y_p）的负梯度作为拟合当前学习器f_T的目标。我们希望在拟合f_T的时候能降低f_T-1 - y的差距。如果拟合第阅读全文

posted @ 2021-03-12 23:44 Parallax 阅读(142) 评论(0) 推荐(0) 编辑

机器学习中的集成学习

摘要：串行集成子学习器间存在强依赖关系，典型的是boosting系列： GBDT（两种高效实现：Xgboost 高效并行实现（代价函数引入二阶展开并加入正则项），LightGBM GBDT算法的（多机）分布式高效框架）并行集成子学习器之间不存在强依赖关系，典型的是Bagging系列：如Random 阅读全文

posted @ 2021-03-12 19:05 Parallax 阅读(74) 评论(0) 推荐(0) 编辑

Python sklearn模型参数调优

摘要：参数调优往往是数据挖掘和分析中至关重要的一步，一组好的参数能够使模型的预测或者分类更加的准确，使得模型能够完美的刻画数据的规律，在python中的sklearn中主要有两种参数调优的方法，分别为网格搜索法和随机搜索方法，下面分别介绍两种算法的核心思想： 1、网格搜索法-GridSearchCV 网格阅读全文

posted @ 2019-05-27 02:43 Parallax 阅读(1224) 评论(0) 推荐(0) 编辑

DBSCAN密度聚类

摘要：转自https://www.cnblogs.com/pinard/p/6208966.html DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Mea 阅读全文

posted @ 2019-05-17 02:47 Parallax 阅读(178) 评论(0) 推荐(0) 编辑

特征工程之特征预处理

摘要：转载自https://www.cnblogs.com/pinard/p/9093890.html 在前面我们分别讨论了特征工程中的特征选择与特征表达，本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化，异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化由于标准化阅读全文

posted @ 2019-05-17 02:35 Parallax 阅读(188) 评论(0) 推荐(0) 编辑

特征工程之特征表达

摘要：转载自https://www.cnblogs.com/pinard/p/9061549.html 在特征工程之特征选择中，我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程，不过会重点关注于特征表达部分，即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理，特殊的特征处理比如时间和地理位置阅读全文

posted @ 2019-05-17 02:33 Parallax 阅读(122) 评论(0) 推荐(0) 编辑

特征工程之特征选择

摘要：转载至https://www.cnblogs.com/pinard/p/9032759.html 特征工程是数据分析中最耗时间和精力的一部分工作，它不像算法和模型那样是确定的步骤，更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会阅读全文

posted @ 2019-05-17 02:30 Parallax 阅读(136) 评论(0) 推荐(0) 编辑

Adaboost,GBDT和XGboost算法

摘要：一：提升方法概述提升方法是一种常用的统计学习方法，其实就是将多个弱学习器提升（boost）为一个强学习器的算法。其工作机制是通过一个弱学习算法，从初始训练集中训练出一个弱学习器，再根据弱学习器的表现对训练样本分布进行调整，使得先前弱学习器做错的训练样本在后续受到更多的关注，然后基于调整后的样本分阅读全文

posted @ 2019-05-16 15:10 Parallax 阅读(178) 评论(0) 推荐(0) 编辑

GBDT如何选择特征

摘要：gbdt选择特征其实就是CART Tree的生成过程。gbdt的弱分类器默认选择的是CART TREE。其实也可以选择其他弱分类器的，选择的前提是低方差和高偏差。假设我们目前总共有 M 个特征。第一步我们需要从中选择出一个特征 j，做为二叉树的第一个节点。然后对特征 j 的值选择一个切分点 m. 一阅读全文

posted @ 2019-05-15 22:26 Parallax 阅读(1484) 评论(0) 推荐(0) 编辑

GBDT如何分类

摘要：（GBDT是通过梯度下降（作为残差的近似）更新的决策树集成的boosting模型）首先明确一点，gbdt 无论用于分类还是回归一直都是使用的CART 回归树。不会因为我们所选择的任务是分类任务就选用分类树，这里面的核心是因为gbdt 每轮的训练是在上一轮的训练的残差基础之上进行训练的。这里的残差阅读全文

posted @ 2019-05-15 22:20 Parallax 阅读(564) 评论(0) 推荐(0) 编辑

约束优化问题的转化——拉格朗日对偶性

摘要：总结首先，约束最优化（min f(x)，st：c(x)0,h(x)=0）——原始问题，可以转化为等价的拉格朗日极小极大的无约束问题（min max(L（x，α，β）)，α，β为拉格朗日乘子，st：0）——等效原始问题若原问题棘手，在满足KKT（充要）条件下，可以通过拉格朗日对偶性将原问题的优化（阅读全文

posted @ 2019-05-13 20:21 Parallax 阅读(1044) 评论(0) 推荐(0) 编辑

L1损失函数和L2损失函数

摘要：L1损失函数：最小化绝对误差，因此L1损失对异常点有较好的适应更鲁棒，不可导，有多解，解的稳定性不好。关于L1损失函数的不连续的问题，可以通过平滑L1损失函数代替： L2损失函数：最小化平方误差，因此L2损失对异常点敏感，L2损失函数会赋予异常点更大的损失值和梯度，调整网络参数向减小异常点误差的方阅读全文

posted @ 2019-05-11 00:56 Parallax 阅读(981) 评论(0) 推荐(0) 编辑

L1正则化和L2正则化

摘要：为了降低过拟合风险，需要控制模型复杂度，自然想到减少参数个数，但是这个问题不易直接解决，可以通过放宽条件控制。 L1正则化（嵌入式特征选择）——又称参数稀疏性惩罚——lasso reg 添加优化条件：这会使参数条件空间有明显的凸角，这些突出点显然会成为联合优化时的最优解，但同时这些这些凸点中又会有阅读全文

posted @ 2019-05-11 00:19 Parallax 阅读(209) 评论(0) 推荐(0) 编辑

精确率、召回率、准确率、F1 score与ROC曲线

摘要：精确率、召回率、准确率、F1 score与ROC曲线精确率（Precision）——查准率（查的准）：表示的是预测为某类样本（例如正样本）中有多少是真正的该类样本，一般用来评价分类任务模型。 ······比如对于一个分类模型，预测结果为A类的所有样本中包含A0个真正的A样本，和A1个不是A样本的阅读全文

posted @ 2019-04-23 04:06 Parallax 阅读(478) 评论(0) 推荐(0) 编辑

softmax分类及交叉熵损失

摘要：回归就是通过y=wx+b得到的。而如果是分类，则输出层神经元个数即为类别数。例如3类， o（i）=wx+b，i=1,2,3, 然后将输出值o做指数变化exp（o(i)）,得到的exp（o(1)）/exp（o(i)），即将输出值变为和为1的概率分布。（即对输出进行指数归一化处理）分类的损失函数一般阅读全文

posted @ 2019-03-29 21:12 Parallax 阅读(586) 评论(0) 推荐(0) 编辑

线性回归的简单实现-mxnet

摘要：1 #构建数据集 2 from mxnet import autograd, nd #引入自动求导和n维数组 3 4 num_inputs = 2 5 num_examples = 1000 6 true_w = [2, -3.4] 7 true_b = 4.2 8 features = nd.ra 阅读全文

posted @ 2019-03-17 01:30 Parallax 阅读(138) 评论(0) 推荐(0) 编辑

线性回归从0实现——mxnet

摘要：1 %matplotlib inline 2 from IPython import display 3 from matplotlib import pyplot as plt 4 from mxnet import autograd, nd 5 import random 6 7 num_inp 阅读全文

posted @ 2019-03-16 14:16 Parallax 阅读(125) 评论(0) 推荐(0) 编辑

决策树（DT）

摘要：（一）决策树模型决策树由节点和有向边组成，节点包括内部节点和叶节点，内部结点是某属性的切分点，叶节点是所有实例组成的输入空间被决策树所划分成的子空间，代表一类（标签为一类，或者没有合适的特征可以使用）。决策树学习包括三个步骤： 1.特征选择（即属性选择，又包括切分点选择） 2.决策树生成 3.决阅读全文

posted @ 2019-01-14 23:32 Parallax 阅读(691) 评论(0) 推荐(0) 编辑

机器学习实战SKlearn之KNN手写数字识别

摘要：1 # -*- coding: UTF-8 -*- 2 import numpy as np 3 import operator 4 from os import listdir 5 from sklearn.neighbors import KNeighborsClassifier as kNN 阅读全文

posted @ 2018-11-23 04:54 Parallax 阅读(547) 评论(0) 推荐(0) 编辑

机器学习实战之决策树（基础）

摘要：信息：若Xi(i=1,2,...n)为分类类别，则信息值 (Xi) = .(X为某一特征) 熵：（随机变量的不确定性的度量）信息的数学期望。E = 经验熵：概率由数学估计得到。 1 # -*- coding: UTF-8 -*- 2 from math import log 3 def create 阅读全文

posted @ 2018-11-22 12:36 Parallax 阅读(92) 评论(0) 推荐(0) 编辑

Parallax

初极狭，才通人；复行数十步，豁然开朗。

随笔分类 - 机器学习

公告

搜索

积分与排名

随笔分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论