摘要: 本博客大致翻译一下LightGBM论文的主旨要义,方便以后复习。 🌟代表存在问题 论文名称:《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》 摘要 GBDT,包括其工程优化如XGBoost和pGBDT等,存在着当特征维度升 阅读全文
posted @ 2019-09-04 16:17 Vancuicide 阅读(596) 评论(0) 推荐(0) 编辑
摘要: 本篇文章是对18年11月19日,自己写的L1、L2范数文章的进一步总结,之前在学习正则化,了解到了L1和L2正则化,这里记录一下。 目录: 1. 什么是正则化 2. 如何理解正则化 3. 正则化的作用 第一个问题,什么是正则化? 正则化就是在损失函数后加上一个正则化项(惩罚项),其实就是常说的结构风 阅读全文
posted @ 2019-03-23 16:47 Vancuicide 阅读(1338) 评论(0) 推荐(0) 编辑
摘要: 在日常模型训练过程中,模型有多种选择,模型的参数同样也有多种选择,如何根据同一批数据选出最适合的模型和参数呢? 一般情况下,模型还比较好选择,是选用机器学习中分类模型例如 LR、SVM或XGBoost等,还是使用深度学习模型CNN、LSTM等。但是参数的选择就让人很头疼,每个模型都有一堆参数,参数值 阅读全文
posted @ 2019-03-14 15:31 Vancuicide 阅读(4299) 评论(0) 推荐(0) 编辑
摘要: 通常C/C++中,"/ " 算术运算符的计算结果是根据参与运算的两边的数据决定的,比如:6 / 3 = 2 ; 6,3都是整数,那么结果也就是整数2;6.0 / 3.0 = 2.0 ; 6.0,3.0是浮点数,那么结果也是浮点数2.0,更精确的说,只要" / " 两边有一个数是浮点数,那么结果就是浮 阅读全文
posted @ 2019-03-12 11:36 Vancuicide 阅读(4800) 评论(0) 推荐(0) 编辑
摘要: 在做项目的时候,发现在训练集中,正负样本比例比例在1:7左右,虽然相差不多(但在实际获取的样本比例大概在1:2000左右),所以有必要探讨一下在样本不均衡的情况下,这些训练数据会对模型产生的影响。 在实际的模型选取中,采用了SVM和textCNN这两种模型对文本进行分类,下面分别看一下这两种模型在样 阅读全文
posted @ 2019-03-10 10:59 Vancuicide 阅读(10133) 评论(1) 推荐(0) 编辑
摘要: kNN和Kmeans在初学者学习过程中,可能会产生一些混淆,趁着复习阶段在博客总结一下,学习到的和总结的知识点。 首先需要知道,kNN和Kmeans的最重要区别: kNN算法是分类算法,分类算法肯定是需要有学习语料,然后通过学习语料的学习之后的模板来匹配我们的测试语料集,将测试语料集合进行按照预先学 阅读全文
posted @ 2019-03-08 17:35 Vancuicide 阅读(1192) 评论(0) 推荐(0) 编辑
摘要: 排序思路: 首先归并排序使用了二分法,归根到底的思想还是分而治之。拿到一个长数组,将其不停的分为左边和右边两份,然后以此递归分下去。然后再将她们按照两个有序数组的样子合并起来。所以当将这左右两边分到不可分,也就到了该合并的时候。 这里显示了归并排序的第一步,将数组按照middle进行递归拆分,最后分 阅读全文
posted @ 2019-03-06 22:29 Vancuicide 阅读(1751) 评论(0) 推荐(2) 编辑
摘要: 算法导论上的快速排序采用分治算法,步骤如下: 1.选取一个数字作为基准,可选取末位数字 2.将数列第一位开始,依次与此数字比较,如果小于此数,将小数交换到左边,最后达到小于基准数的在左边,大于基准数的在右边,分为两个数组 3.分别对两个数组重复上述步骤 其中一次排序步骤如下: 伪码实现: Pytho 阅读全文
posted @ 2019-03-05 15:46 Vancuicide 阅读(899) 评论(0) 推荐(0) 编辑
摘要: 在深度学习中,监督类学习问题其实就是在规则化参数同时最小化误差。最小化误差目的是让模型拟合训练数据,而规则化参数的目的是防止模型过分拟合训练数据。 参数太多,会导致模型复杂度上升,容易过拟合,也就是训练误差小,测试误差大。因此,我们需要保证模型足够简单,并在此基础上训练误差小,这样训练得到的参数才能 阅读全文
posted @ 2018-11-19 11:36 Vancuicide 阅读(3830) 评论(0) 推荐(0) 编辑
摘要: 在处理机器学习任务时,我们都需要使用数据,当然,有时候数据集可以很大,有时候数据集数量不是很理想,那么如何针对这些数据得出更加有效的模型呢? 大型数据集 Idea #1: 当我们拿到数据集后,如果将所有数据进行训练的话 这样会导致模型见过所有的数据,如果再用这些数据进行测试的话,效果会非常好,但我们 阅读全文
posted @ 2018-11-08 17:50 Vancuicide 阅读(1341) 评论(0) 推荐(0) 编辑