Vancuicide

2019年9月4日

摘要：本博客大致翻译一下LightGBM论文的主旨要义，方便以后复习。 🌟代表存在问题论文名称：《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》摘要 GBDT，包括其工程优化如XGBoost和pGBDT等，存在着当特征维度升阅读全文

posted @ 2019-09-04 16:17 Vancuicide 阅读(668) 评论(0) 推荐(0)

2019年3月23日

正则化L1、L2的理解

摘要：本篇文章是对18年11月19日，自己写的L1、L2范数文章的进一步总结，之前在学习正则化，了解到了L1和L2正则化，这里记录一下。目录： 1. 什么是正则化 2. 如何理解正则化 3. 正则化的作用第一个问题，什么是正则化？正则化就是在损失函数后加上一个正则化项（惩罚项），其实就是常说的结构风阅读全文

posted @ 2019-03-23 16:47 Vancuicide 阅读(1473) 评论(0) 推荐(0)

2019年3月14日

模型参数选择方法——GridSearch网格搜索

摘要：在日常模型训练过程中，模型有多种选择，模型的参数同样也有多种选择，如何根据同一批数据选出最适合的模型和参数呢？一般情况下，模型还比较好选择，是选用机器学习中分类模型例如 LR、SVM或XGBoost等，还是使用深度学习模型CNN、LSTM等。但是参数的选择就让人很头疼，每个模型都有一堆参数，参数值阅读全文

posted @ 2019-03-14 15:31 Vancuicide 阅读(4677) 评论(0) 推荐(0)

2019年3月12日

python中//和/的区别

摘要：通常C/C++中，"/ " 算术运算符的计算结果是根据参与运算的两边的数据决定的，比如：6 / 3 = 2 ; 6,3都是整数，那么结果也就是整数2;6.0 / 3.0 = 2.0 ; 6.0,3.0是浮点数，那么结果也是浮点数2.0，更精确的说，只要" / " 两边有一个数是浮点数，那么结果就是浮阅读全文

posted @ 2019-03-12 11:36 Vancuicide 阅读(4904) 评论(0) 推荐(0)

2019年3月10日

样本不均衡对模型的影响

摘要：在做项目的时候，发现在训练集中，正负样本比例比例在1:7左右，虽然相差不多（但在实际获取的样本比例大概在1:2000左右），所以有必要探讨一下在样本不均衡的情况下，这些训练数据会对模型产生的影响。在实际的模型选取中，采用了SVM和textCNN这两种模型对文本进行分类，下面分别看一下这两种模型在样阅读全文

posted @ 2019-03-10 10:59 Vancuicide 阅读(10549) 评论(1) 推荐(0)

2019年3月8日

kNN与Kmeans算法学习

摘要： kNN和Kmeans在初学者学习过程中，可能会产生一些混淆，趁着复习阶段在博客总结一下，学习到的和总结的知识点。首先需要知道，kNN和Kmeans的最重要区别： kNN算法是分类算法，分类算法肯定是需要有学习语料，然后通过学习语料的学习之后的模板来匹配我们的测试语料集，将测试语料集合进行按照预先学阅读全文

posted @ 2019-03-08 17:35 Vancuicide 阅读(1323) 评论(0) 推荐(0)

2019年3月6日

归并排序的python实现

摘要：排序思路：首先归并排序使用了二分法，归根到底的思想还是分而治之。拿到一个长数组，将其不停的分为左边和右边两份，然后以此递归分下去。然后再将她们按照两个有序数组的样子合并起来。所以当将这左右两边分到不可分，也就到了该合并的时候。这里显示了归并排序的第一步，将数组按照middle进行递归拆分，最后分阅读全文

posted @ 2019-03-06 22:29 Vancuicide 阅读(1769) 评论(0) 推荐(2)

2019年3月5日

快速排序Python实现

摘要：算法导论上的快速排序采用分治算法，步骤如下： 1.选取一个数字作为基准，可选取末位数字 2.将数列第一位开始，依次与此数字比较，如果小于此数，将小数交换到左边，最后达到小于基准数的在左边，大于基准数的在右边，分为两个数组 3.分别对两个数组重复上述步骤其中一次排序步骤如下：伪码实现： Pytho 阅读全文

posted @ 2019-03-05 15:46 Vancuicide 阅读(916) 评论(0) 推荐(0)

2018年11月19日

深度学习——L0、L1及L2范数

摘要：在深度学习中，监督类学习问题其实就是在规则化参数同时最小化误差。最小化误差目的是让模型拟合训练数据，而规则化参数的目的是防止模型过分拟合训练数据。参数太多，会导致模型复杂度上升，容易过拟合，也就是训练误差小，测试误差大。因此，我们需要保证模型足够简单，并在此基础上训练误差小，这样训练得到的参数才能阅读全文

posted @ 2018-11-19 11:36 Vancuicide 阅读(4005) 评论(0) 推荐(0)

2018年11月8日

拿到机器学习数据后，该如何对数据进行划分？

摘要：在处理机器学习任务时，我们都需要使用数据，当然，有时候数据集可以很大，有时候数据集数量不是很理想，那么如何针对这些数据得出更加有效的模型呢？大型数据集 Idea #1：当我们拿到数据集后，如果将所有数据进行训练的话这样会导致模型见过所有的数据，如果再用这些数据进行测试的话，效果会非常好，但我们阅读全文

posted @ 2018-11-08 17:50 Vancuicide 阅读(1391) 评论(0) 推荐(0)

公告