我们都是大好青年

2018年8月3日

摘要：前言集成学习是通过构建并结合多个学习器来完成学习任务，主要包含两类，一是个体学习器间存在强依赖关系、必须串行生成得序列化方法，比如提升学习方法、提升树GBDT、xgboost等，主要思想是boosting迭代将弱学习器提升为强学习器；二是个体学习器之间不存在强依赖关系、可同时生成得并行化方法阅读全文

posted @ 2018-08-03 16:48 我们都是大好青年阅读(1239) 评论(0) 推荐(0) 编辑

主成分分析PCA

摘要： PCA操作流程 1、去平均值，每一位特征减去均值，（当然，为了避免量纲以及数据量级差异的影响，先标准化是必要的） 2、计算协方差矩阵 3、计算协方差矩阵的特征值与特征向量 4、对特征值从大到小排序 5、保留最大的几个特征向量 6、将数据转换到特征特征向量构建的新空间中阅读全文

posted @ 2018-08-03 11:47 我们都是大好青年阅读(172) 评论(0) 推荐(0) 编辑

2018年8月1日

RF,GBDT,XGBoost,lightGBM的对比

摘要：转载地址：https://blog.csdn.net/u014248127/article/details/79015803 RF,GBDT,XGBoost,lightGBM都属于集成学习（Ensemble Learning），集成学习的目的是通过结合多个基学习器的预测结果来改善基本学习器的泛化能力阅读全文

posted @ 2018-08-01 12:05 我们都是大好青年阅读(2713) 评论(0) 推荐(0) 编辑

如何看待微软新开源的LightGBM？

摘要： GBDT虽然是个强力的模型，但却有着一个致命的缺陷，不能用类似mini batch的方式来训练，需要对数据进行无数次的遍历。如果想要速度，就需要把数据都预加载在内存中，但这样数据就会受限于内存的大小；如果想要训练更多的数据，就要使用外存版本的决策树算法。虽然外存算法也有较多优化，SSD也在普及，但在阅读全文

posted @ 2018-08-01 12:03 我们都是大好青年阅读(332) 评论(0) 推荐(0) 编辑

2018年7月31日

SVM支持向量机

摘要： SVM有如下主要几个特点： (1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射； (2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心； (3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。 (4)SVM 阅读全文

posted @ 2018-07-31 19:12 我们都是大好青年阅读(572) 评论(0) 推荐(0) 编辑

朴素贝叶斯常见面试题

摘要： 0、思想：对于给定的待分类项x，通过学习到的模型计算后验概率分布，即：在此项出现的条件下各个目标类别出现的概率，将后验概率最大的类作为x所属的类别。后验概率根据贝叶斯定理计算。关键：为避免贝叶斯定理求解时面临的组合爆炸、样本稀疏问题，引入了条件独立性假设。用于分类的特征在类确定的条件下都是条件独阅读全文

posted @ 2018-07-31 11:04 我们都是大好青年阅读(2532) 评论(0) 推荐(0) 编辑

2018年7月30日

维特比算法（Viterbi）及python实现样例

摘要：维特比算法（Viterbi）维特比算法维特比算法shiyizhong 动态规划算法用于最可能产生观测时间序列的-维特比路径-隐含状态序列，特别是在马尔可夫信息源上下文和隐马尔科夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释的相关dongtai 规划算法。例如在统计句阅读全文

posted @ 2018-07-30 15:54 我们都是大好青年阅读(22514) 评论(5) 推荐(2) 编辑

Adam优化算法

摘要：深度学习常常需要大量的时间和计算机资源进行训练，这也是困扰深度学习算法开发的重大原因。虽然我们可以采用分布式并行训练加速模型的学习，但需要的计算资源并没有丝毫减少。而唯有需要资源更少、令模型收敛更快的最优化算法，才能从根本上加速机器的学习速度和效果，Adam算法正为此而生！ Adam优化算法是随机梯阅读全文

posted @ 2018-07-30 12:15 我们都是大好青年阅读(2880) 评论(0) 推荐(0) 编辑

2018年7月29日

xgboost原理总结和代码展示

摘要：关于xgboost的学习推荐两篇博客，每篇看2遍，我都能看懂，你肯定没问题两篇方法互通，知识点互补！记录下来，方便以后查看第一篇：作者：milter链接：https://www.jianshu.com/p/7467e616f227 第二篇：https://blog.csdn.net/a1b2c3 阅读全文

posted @ 2018-07-29 16:27 我们都是大好青年阅读(8137) 评论(0) 推荐(0) 编辑

RF、GBDT、XGBOOST常见面试算法整理

摘要： 1、 RF（随机森林）与GBDT之间的区别相同点： 1)都是由多棵树组成的 2)最终的结果都是由多棵树一起决定不同点： 1）组成随机森林的树可以是分类树也可以是回归树，而GBDT只由回归树组成 2）组成随机森林的树可是并行生成，而GBDT只能是串行生成 3）随机森林的结果是多棵树表决决定，阅读全文

posted @ 2018-07-29 10:12 我们都是大好青年阅读(995) 评论(0) 推荐(0) 编辑

我们都是大好青年

公告