随笔分类 - 机器学习
感谢 娄杰 栋哥 我一起学习的伙伴
一直为我答疑
摘要:feature_importance的特征重要性 There are indeed several ways to get feature "importances". As often, there is no strict consensus about what this word means
阅读全文
摘要:先说学习心得 通过这篇对特征重要性的baseline学习,我学习到了如下三个点: 1.feature_importance 2.一款GPU计算的开源框架rapids 3.回顾了xgb树模型的生成过程 资源搬运如下: https://www.kaggle.com/aerdem4/m5-lofo-imp
阅读全文
摘要:采用lightGBM模型 准备数据与训练 calendar.csv数据集导入。 该数据数聚包含物品的售卖时间与物品类型 date: The date in a “y-m-d” format. wm_yr_wk: The id of the week the date belongs to. week
阅读全文
摘要:M5比赛 M5竞赛是M竞赛中最新的一次,将于2020年3月2日至6月30日举行。它与前四届竞赛有五个重要方面的差异,其中一些是M4竞赛的讨论者提出的。 它使用沃尔玛慷慨提供的分层销售数据,从商品级别开始,再汇总到美国三个地理区域(加利福尼亚州,德克萨斯州和威斯康星州)的部门,产品类别和商店。 除时间
阅读全文
摘要:自信息 自信息I表示概率空间中的单一事件或离散随机变量的值相关的信息量的量度。它用信息的单位表示,例如bit、nat或是hart,使用哪个单位取决于在计算中使用的对数的底。如下图: 对数以2为底,单位是比特(bit) 对数以e为底,单位是纳特(nat) 如英语有26个字母,假设在文章中出现的概率相等
阅读全文
摘要:其实应该叫做指数加权平均梯度下降法。
阅读全文
摘要:1.CART简介 CART是一棵二叉树,每一次分裂会产生两个子节点。CART树分为分类树和回归树。 分类树主要针对目标标量为分类变量,比如预测一个动物是否是哺乳动物。 回归树针对目标变量为连续值的情况,比如预测一个动物的年龄。 如果是分类树,将选择能够最小化分裂后节点GINI值的分裂属性; 如果是回
阅读全文
摘要:从线性回归到逻辑回归 最简单的回归是线性回归,在Andrew NG的讲义,有如图1.a所示,X为数据点——肿瘤的大小,Y为观测值——是否是恶性肿瘤。通过构建线性回归模型,如hθ(x)所示,构建线性回归模型后,即可以根据肿瘤大小,预测是否为恶性肿瘤hθ(x)≥.05为恶性,hθ(x)<0.5为良性。
阅读全文
摘要:单个学习器要么容易欠拟合要么容易过拟合,为了获得泛化性能优良的学习器,可以训练多个个体学习器,通过一定的结合策略,最终形成一个强学习器。这种集成多个个体学习器的方法称为集成学习(ensemble learning)。 集成学习通过组合多种模型来改善机器学习的结果,与单一的模型相比,这种方法允许产生更
阅读全文
摘要:昨天和刚来项目的机器学习小白解释了一边什么baseline 和pipeline,今天在这里总结一下什么是baseline和pipeline。 1.pipeline 1.1 从管道符到pipeline 先从在linux的管道符讲起, inux体系下的各种命令工具的处理,可以使用管道符作为传递,这是一种
阅读全文
摘要:1、修改graphviz配置文件 <dir>C:\WINDOWS\Fonts</dir> 更改为 <dir>~/.fonts</dir> 2、将决策树dot_data文件保存下来 生成相应的dot文件如下: cmd: 切换到相应目录 3、dot_data文件格式转换 查看保存在本地的 dot_dat
阅读全文
摘要:1.数据集介绍 20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。 数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。 一些新闻组的主题特别相似(e.g. comp.sys.ibm.pc.hardware/ comp.sys.m
阅读全文
摘要:1.原理和概念 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。 PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。 PCA的工作就是从原始的空间中顺序
阅读全文
摘要:奇异值分解是有着很明显的物理意义,将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些小矩阵描述的是矩阵的重要的特性,让机器学会抽取重要的特征,SVD是一个重要的方法。 所以SVD不仅是一个数学问题,在工程应用方面很多地方都有其身影,如PCA,推荐系统、任意矩阵的满秩分解。 1、特征值 如
阅读全文
摘要:小明在学校玩王者荣耀被发现了,爸爸被叫去开家长会,心里悲屈的很,就想法子惩罚小明。到家后,爸爸跟小明说:既然你犯错了,就要接受惩罚,但惩罚的程度就看你聪不聪明了。这样吧,我们俩玩猜球游戏,我拿一个球,你猜球的颜色,我可以回答你任何问题,你每猜一次,不管对错,你就一个星期不能玩王者荣耀,当然,猜对,游
阅读全文