Processing math: 100%

随笔分类 -  Python与机器学习竞赛

摘要:文章来自公众号【机器学习炼丹术】,回复“炼丹”即可获得海量学习资料哦! 本章节缕一缕PyTorch的动态图机制与Tensorflow的静态图机制(最新版的TF也支持动态图了似乎)。 1 动态图的初步推导 计算图是用来描述运算的有向无环图 计算图有两个主要元素:结点(Node)和边(Edge); 结点 阅读全文
posted @ 2020-08-23 06:17 忽逢桃林 阅读(2069) 评论(0) 推荐(0) 编辑
摘要:校招在即,准备准备一些面试可能会用到的东西吧。希望这次面试不会被挂。 基本概念 说到机器学习模型的误差,主要就是bias和variance。 Bias:如果一个模型的训练错误大,然后验证错误和训练错误都很大,那么这个模型就是高bias。可能是因为欠拟合,也可能是因为模型是弱分类器。 Variance 阅读全文
posted @ 2020-06-24 18:17 忽逢桃林 阅读(1106) 评论(0) 推荐(0) 编辑
摘要:作者前言 在2020年还在整理XGB的算法,其实已经有点过时了。。不过,主要是为了学习算法嘛。现在的大数据竞赛,XGB基本上已经全面被LGB模型取代了,这里主要是学习一下Boost算法。之前已经在其他博文中介绍了Adaboost算法和Gradient-boost算法,这篇文章讲解一下XGBoost。 阅读全文
posted @ 2020-06-22 20:58 忽逢桃林 阅读(1802) 评论(0) 推荐(0) 编辑
摘要:先缕一缕几个关系: GBDT是gradient-boost decision tree GBDT的核心就是gradient boost,我们搞清楚什么是gradient boost就可以了 GBDT是boost中的一种方法,boost还有XGBoost,adaboost。 基本概念 【Boost】就 阅读全文
posted @ 2020-06-22 03:29 忽逢桃林 阅读(655) 评论(0) 推荐(0) 编辑
摘要:梯度消失问题和梯度爆炸问题,总的来说可以称为梯度不稳定问题。 【要背住的知识】:用ReLU代替Sigmoid,用BN层,用残差结构解决梯度消失问题。梯度爆炸问题的话,可以用正则化来限制。sigmoid的导数是【0,0.25】. 出现原因 两者出现原因都是因为链式法则。当模型的层数过多的时候,计算梯度 阅读全文
posted @ 2020-06-21 18:51 忽逢桃林 阅读(11916) 评论(0) 推荐(0) 编辑
摘要:boosting Boosting 算法的特点在于:将表现一般的弱分类器通过组合变成更好的模型。代表自然就是我们的随即森林了。 GBDT和Adaboost是boost算法中比较常见的两种,这里主要讲解Adaboost。 Adaboost Adaboost算法的核心就是两个权重。对于数据有一个权重,权 阅读全文
posted @ 2020-06-21 06:44 忽逢桃林 阅读(759) 评论(0) 推荐(0) 编辑
摘要:线性回归解决的是回归问题,逻辑回归相当于是线性回归的基础上,来解决分类问题。 公式 线性回归(Linear Regression)是什么相比不用多说了。格式是这个样子的: fw,b(x)=iwixi+b 而逻辑回归(Logistic Regression)的样子呢? 阅读全文
posted @ 2020-06-20 02:48 忽逢桃林 阅读(610) 评论(0) 推荐(0) 编辑
摘要:什么是过拟合 过拟合就是在训练集上表现得非常好,在测试集上表现得不好。也就是我们俗称的泛化能力弱。 过拟合无法避免,只能缓解,那么如何缓解呢?方法太多了。这篇文章一一介绍。 数据集增强Augmentation 图像上,翻转,平移,缩放,旋转,镜像,增强对比度,增强亮度等诸多方式。 我在下面的内容中介 阅读全文
posted @ 2020-06-20 02:45 忽逢桃林 阅读(1564) 评论(0) 推荐(0) 编辑
摘要:@[toc] 这是传奇性的Titanic ML竞赛 参加ML竞赛并熟悉Kaggle平台的工作原理的最佳,首要挑战。 这是国外Kaggle大数据网站的一个经典的入门比赛。这个网站要FQ。 简单来说,就是一个简单的大数据预测的题目:我们知道一些人的信息,比如这个人是否有兄弟姐妹,是否是头等舱,这样的信息 阅读全文
posted @ 2020-05-17 23:54 忽逢桃林 阅读(387) 评论(0) 推荐(0) 编辑
摘要:@[toc] 1 概述 先上第一名分析的图 2 处理思想学习 2.1 移除异常值 Long steaks of constant values 1. 恒定值的长条纹 Large positive/negative spikes 2. 极端的大尖峰 我们使用一个数据中所有建筑物验证了潜在的异常 如果同 阅读全文
posted @ 2020-05-17 05:38 忽逢桃林 阅读(833) 评论(0) 推荐(0) 编辑
摘要:1 定义 百度百科的定义: 它是通过把所有地表真实分类中的像元总数(N)乘以混淆矩阵对角线(Xkk)的和,再减去某一类地表真实像元总数与被误分成该类像元总数之积对所有类别求和的结果,再除以总像元数的平方减去某一类中地表真实像元总数与该类中被误分成该类像元总数之积对所有类别求和的结果所得到的。 这对于 阅读全文
posted @ 2020-05-17 05:36 忽逢桃林 阅读(5459) 评论(0) 推荐(0) 编辑
摘要:贝叶斯优化 (BayesianOptimization) 1 问题提出 神经网咯是有许多超参数决定的,例如网络深度,学习率,正则等等。如何寻找最好的超参数组合,是一个老人靠经验,新人靠运气的任务。 穷举搜索 Grid Search 效率太低;随机搜索比穷举搜索好一点;目前比较好的解决方案是贝叶斯优化 阅读全文
posted @ 2020-05-17 05:34 忽逢桃林 阅读(9183) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示