随笔分类 -  机器学习

摘要:为什么要找负梯度? 函数值沿着梯度的方向增加的最快,逆着梯度的方向函数值减小的最快。 因此我们用上一个学习器f_T-1与目标值y的差距(注意:是损失函数而不是原始的偏差y_i - y_p)的负梯度作为拟合当前学习器f_T的目标。 我们希望在拟合f_T的时候能降低f_T-1 - y的差距。 如果拟合第 阅读全文
posted @ 2021-03-12 23:44 Parallax 阅读(142) 评论(0) 推荐(0) 编辑
摘要:串行集成 子学习器间存在强依赖关系,典型的是boosting系列: GBDT(两种高效实现:Xgboost 高效并行实现(代价函数引入二阶展开并加入正则项),LightGBM GBDT算法的(多机)分布式高效框架) 并行集成 子学习器之间不存在强依赖关系,典型的是Bagging系列:如Random 阅读全文
posted @ 2021-03-12 19:05 Parallax 阅读(74) 评论(0) 推荐(0) 编辑
摘要:参数调优往往是数据挖掘和分析中至关重要的一步,一组好的参数能够使模型的预测或者分类更加的准确,使得模型能够完美的刻画数据的规律,在python中的sklearn中主要有两种参数调优的方法,分别为网格搜索法和随机搜索方法,下面分别介绍两种算法的核心思想: 1、网格搜索法-GridSearchCV 网格 阅读全文
posted @ 2019-05-27 02:43 Parallax 阅读(1224) 评论(0) 推荐(0) 编辑
摘要:转自https://www.cnblogs.com/pinard/p/6208966.html DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Mea 阅读全文
posted @ 2019-05-17 02:47 Parallax 阅读(178) 评论(0) 推荐(0) 编辑
摘要:转载自https://www.cnblogs.com/pinard/p/9093890.html 在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化 由于标准化 阅读全文
posted @ 2019-05-17 02:35 Parallax 阅读(188) 评论(0) 推荐(0) 编辑
摘要:转载自https://www.cnblogs.com/pinard/p/9061549.html 在特征工程之特征选择中,我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理,特殊的特征处理比如时间和地理位置 阅读全文
posted @ 2019-05-17 02:33 Parallax 阅读(122) 评论(0) 推荐(0) 编辑
摘要:转载至https://www.cnblogs.com/pinard/p/9032759.html 特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会 阅读全文
posted @ 2019-05-17 02:30 Parallax 阅读(136) 评论(0) 推荐(0) 编辑
摘要:一: 提升方法概述 提升方法是一种常用的统计学习方法,其实就是将多个弱学习器提升(boost)为一个强学习器的算法。其工作机制是通过一个弱学习算法,从初始训练集中训练出一个弱学习器,再根据弱学习器的表现对训练样本分布进行调整,使得先前弱学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分 阅读全文
posted @ 2019-05-16 15:10 Parallax 阅读(178) 评论(0) 推荐(0) 编辑
摘要:gbdt选择特征其实就是CART Tree的生成过程。gbdt的弱分类器默认选择的是CART TREE。其实也可以选择其他弱分类器的,选择的前提是低方差和高偏差。假设我们目前总共有 M 个特征。第一步我们需要从中选择出一个特征 j,做为二叉树的第一个节点。然后对特征 j 的值选择一个切分点 m. 一 阅读全文
posted @ 2019-05-15 22:26 Parallax 阅读(1484) 评论(0) 推荐(0) 编辑
摘要:(GBDT是通过梯度下降(作为残差 的近似)更新的决策树集成的boosting模型) 首先明确一点,gbdt 无论用于分类还是回归一直都是使用的CART 回归树。不会因为我们所选择的任务是分类任务就选用分类树,这里面的核心是因为gbdt 每轮的训练是在上一轮的训练的残差基础之上进行训练的。这里的残差 阅读全文
posted @ 2019-05-15 22:20 Parallax 阅读(564) 评论(0) 推荐(0) 编辑
摘要:总结 首先,约束最优化(min f(x),st:c(x)0,h(x)=0)——原始问题,可以转化为等价的拉格朗日极小极大的无约束问题(min max(L(x,α,β)),α,β为拉格朗日乘子,st:0)——等效原始问题 若原问题棘手,在满足KKT(充要)条件下,可以通过拉格朗日对偶性将原问题的优化( 阅读全文
posted @ 2019-05-13 20:21 Parallax 阅读(1044) 评论(0) 推荐(0) 编辑
摘要:L1损失函数:最小化绝对误差,因此L1损失对异常点有较好的适应更鲁棒,不可导,有多解,解的稳定性不好。 关于L1损失函数的不连续的问题,可以通过平滑L1损失函数代替: L2损失函数:最小化平方误差,因此L2损失对异常点敏感,L2损失函数会赋予异常点更大的损失值和梯度,调整网络参数向减小异常点误差的方 阅读全文
posted @ 2019-05-11 00:56 Parallax 阅读(981) 评论(0) 推荐(0) 编辑
摘要:为了降低过拟合风险,需要控制模型复杂度,自然想到减少参数个数,但是这个问题不易直接解决,可以通过放宽条件控制。 L1正则化(嵌入式特征选择)——又称参数稀疏性惩罚——lasso reg 添加优化条件: 这会使参数条件空间有明显的凸角,这些突出点显然会成为联合优化时的最优解,但同时这些这些凸点中又会有 阅读全文
posted @ 2019-05-11 00:19 Parallax 阅读(209) 评论(0) 推荐(0) 编辑
摘要:精确率、召回率、准确率、F1 score与ROC曲线 精确率(Precision)——查准率(查的准): 表示的是预测为某类样本(例如正样本)中有多少是真正的该类样本,一般用来评价分类任务模型。 ······比如对于一个分类模型,预测结果为A类的所有样本中包含A0个真正的A样本,和A1个不是A样本的 阅读全文
posted @ 2019-04-23 04:06 Parallax 阅读(478) 评论(0) 推荐(0) 编辑
摘要:回归就是通过y=wx+b得到的。 而如果是分类,则输出层神经元个数即为类别数。例如3类, o(i)=wx+b,i=1,2,3, 然后将输出值o做指数变化exp(o(i)),得到的exp(o(1))/exp(o(i)),即将输出值变为和为1的概率分布。(即对输出进行指数归一化处理) 分类的损失函数一般 阅读全文
posted @ 2019-03-29 21:12 Parallax 阅读(586) 评论(0) 推荐(0) 编辑
摘要:1 #构建数据集 2 from mxnet import autograd, nd #引入自动求导和n维数组 3 4 num_inputs = 2 5 num_examples = 1000 6 true_w = [2, -3.4] 7 true_b = 4.2 8 features = nd.ra 阅读全文
posted @ 2019-03-17 01:30 Parallax 阅读(138) 评论(0) 推荐(0) 编辑
摘要:1 %matplotlib inline 2 from IPython import display 3 from matplotlib import pyplot as plt 4 from mxnet import autograd, nd 5 import random 6 7 num_inp 阅读全文
posted @ 2019-03-16 14:16 Parallax 阅读(125) 评论(0) 推荐(0) 编辑
摘要:(一)决策树模型 决策树由节点和有向边组成,节点包括内部节点和叶节点,内部结点是某属性的切分点,叶节点是所有实例组成的输入空间被决策树所划分成的子空间,代表一类(标签为一类,或者没有合适的特征可以使用)。 决策树学习包括三个步骤: 1.特征选择(即属性选择,又包括切分点选择) 2.决策树生成 3.决 阅读全文
posted @ 2019-01-14 23:32 Parallax 阅读(691) 评论(0) 推荐(0) 编辑
摘要:1 # -*- coding: UTF-8 -*- 2 import numpy as np 3 import operator 4 from os import listdir 5 from sklearn.neighbors import KNeighborsClassifier as kNN 阅读全文
posted @ 2018-11-23 04:54 Parallax 阅读(547) 评论(0) 推荐(0) 编辑
摘要:信息:若Xi(i=1,2,...n)为分类类别,则信息值 (Xi) = .(X为某一特征) 熵:(随机变量的不确定性的度量)信息的数学期望。E = 经验熵:概率由数学估计得到。 1 # -*- coding: UTF-8 -*- 2 from math import log 3 def create 阅读全文
posted @ 2018-11-22 12:36 Parallax 阅读(92) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示