摘要: 基础概念 在建模过程中,由于偏差过大导致的模型欠拟合以及方差过大导致的过拟合的存在,为了解决这两个问题,我们需要一整套方法及评价指标。其中评估方法用于评估模型的泛化能力,而性能指标则用于评价单个模型性能的高低。 泛化性能 模型的泛化性能是由学习算法的能力,数据的充分性及学习任务本身的难度所决定的,良 阅读全文
posted @ 2018-04-09 22:57 molearner 阅读(11857) 评论(0) 推荐(0) 编辑
摘要: 基础概念 XGBoost(eXtreme Gradient Boosting)是GradientBoosting算法的一个优化的版本,针对传统GBDT算法做了很多细节改进,包括损失函数、正则化、切分点查找算法优化等。 xgboost的优化点 相对于传统的GBM,XGBoost增加了正则化步骤。正则化 阅读全文
posted @ 2018-04-03 23:00 molearner 阅读(5144) 评论(0) 推荐(1) 编辑
摘要: 基础概念 GBDT(Gradient Boosting Decision Tree) 全称梯度提升决策树,是一种迭代的决策树算法。GBDT是集成学习Boosting的家族成员,GBDT中的树是回归树,用于回归预测,调整后也可以用于分类。 分类树与回归树的差异 分类树大致的实现过程是:穷举每一个属性特 阅读全文
posted @ 2018-03-20 21:35 molearner 阅读(721) 评论(0) 推荐(0) 编辑
摘要: 基础概念 随机森林是用随机的方式建立一个森林,森林里面有很多的决策树,并且每一棵决策树之间没有关联。也可说随机森林是决策树的组合模型,其中决策树的组合形式采用类bagging的形式。 Boostrap、Bagging和Boosting(补充理解) Boostrap: Boostrap是一种组合方法的 阅读全文
posted @ 2018-03-13 23:04 molearner 阅读(1771) 评论(0) 推荐(0) 编辑
摘要: 机器学习的基础概念 机器学习时一门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。 机器学习主要使用的学习方法是归纳,而不是演绎。 机器学习更多的使用归纳 阅读全文
posted @ 2018-03-11 22:22 molearner 阅读(3333) 评论(0) 推荐(0) 编辑
摘要: TensorBoard是TensorFlow 的可视化工具。主要为了更方便用户理解 TensorFlow 程序、调试与优化,用户可以用 TensorBoard 来展现 TensorFlow 图像,绘制图像生成的定量指标图以及附加数据。 TensorBoard 通过读取 TensorFlow 的事件文 阅读全文
posted @ 2018-01-10 20:31 molearner 阅读(833) 评论(0) 推荐(0) 编辑
摘要: 首先先介绍一下knn的基本原理: KNN是通过计算不同特征值之间的距离进行分类。 整体的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类 阅读全文
posted @ 2018-01-05 20:07 molearner 阅读(7198) 评论(0) 推荐(0) 编辑
摘要: 关于 TensorFlow TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。 节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例 阅读全文
posted @ 2018-01-03 21:54 molearner 阅读(21426) 评论(0) 推荐(0) 编辑
摘要: 在利用Python做数据分析时,探索数据以及结果展现上图表的应用是不可或缺的。 在Python中通常情况下都是用matplotlib模块进行图表制作。 先理下,matplotlib的结构原理: matplotlib API包含有三层: 1、backend_bases.FigureCanvas : 图 阅读全文
posted @ 2017-08-19 13:56 molearner 阅读(1232) 评论(0) 推荐(0) 编辑
摘要: 基础概念 主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。 原理: 在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数 阅读全文
posted @ 2017-01-15 16:54 molearner 阅读(11368) 评论(0) 推荐(0) 编辑