随笔分类 -  机器学习

摘要:一.基于统计值的筛选方法 1.过滤法:选择特征的时候,不管模型如何,首先统计计算该特征和和label的一个相关性,自相关性,发散性等等统计指标。 优点:特征选择开销小,有效避免过拟合 缺点:没有考虑后续的学习器来选择特征,减弱了学习器的学习能力(因为某些特征可能和label算出来相关性不大,但是可能 阅读全文
posted @ 2021-12-10 14:38 Geeksongs 阅读(1901) 评论(0) 推荐(0) 编辑
摘要:我总结了以下特征工程的一些方法,好的数据和特征往往在数据挖掘当中会给我们带来更好的acc,尤其对于数据挖掘而言。数据决定了预测准确度的上线,而模型的目的则是去尽量逼近这个上限。由此可见,对数据进行特征工程,拥有良好的数据是多么的重要。 对于特征工程而言,我们一般会对类别型数据或者数值型数据进行相应的 阅读全文
posted @ 2021-12-10 13:18 Geeksongs 阅读(166) 评论(0) 推荐(0) 编辑
摘要:【与传统GBDT相比,XGBoost有何不同】 基函数不同。GBDT只用CART树,XGBoost除了CART,也支持线性函数。 目标不同。具体体现在结点分裂策略与正则化。GBDT和XGBoost都是根据目标增益分裂结点,GBDT根据均方误差(回归)或基尼指数(分类),XGBoost则进一步引入正则 阅读全文
posted @ 2021-12-07 18:02 Geeksongs 阅读(837) 评论(0) 推荐(0) 编辑
摘要:在决策树算法当中,cart回归树是决策树的一种,它用来做回归的策略十分常见。可能还会在后续的GBDT模型当中所运用到,用来作为我们分裂节点的一个标准,我们来了解了解。 备注: 在进行计算回归树的c1和c2的值的时候,我们使用的方法,是对c1所在的区域做一个平均值,然后对c2的所在的区域算出一个平均值 阅读全文
posted @ 2021-12-07 17:46 Geeksongs 阅读(381) 评论(0) 推荐(0) 编辑
摘要:1.optuna基本使用 Optuna是一个自动帮助我们调试参数的工具,使用起来十分方便。比sklearn的gridsearchcv好用很多,一是因为optuna相比于sklearn能够快速进行调参,二是因为它可以将调试参数的过程进行可视化。同时可以如果没训练完,下次继续训练。而optuna内部使用 阅读全文
posted @ 2021-11-20 09:54 Geeksongs 阅读(1526) 评论(1) 推荐(0) 编辑
摘要:前言 真的是千呼万唤始出来emmmm,去年春招结束写了篇面试的经验分享。在文中提到和小伙伴整理了算法岗面试时遇到的常见知识点及回答,本想着授人以渔,但没想到大家都看上了我家的 !但因本人执行力不足,被大家催到现在才终于想着行动起来分享给大家,笔者在这里给各位读者一个大大的抱歉,求原谅呜呜~~相信今年 阅读全文
posted @ 2021-11-08 10:53 Geeksongs 阅读(444) 评论(0) 推荐(0) 编辑
摘要:代码如下: def objective(trial,data=data,target=target): train_x, test_x, train_y, test_y = train_test_split(data, target, test_size=0.15,random_state=42) 阅读全文
posted @ 2021-11-04 11:42 Geeksongs 阅读(854) 评论(0) 推荐(0) 编辑
摘要:使用伪标签进行半监督学习,在机器学习竞赛当中是一个比较容易快速上分的关键点。下面给大家来介绍一下什么是基于伪标签的半监督学习。在传统的监督学习当中,我们的训练集具有标签,同时,测试集也具有标签。这样我们通过训练集训练到的模型就可以在测试集上验证模型的准确率。 然而使用伪标签的话,我们则可以使用训练集 阅读全文
posted @ 2021-10-30 11:40 Geeksongs 阅读(916) 评论(0) 推荐(0) 编辑
摘要:机器学习模型当中,目前最为先进的也就是xgboost和lightgbm这两个树模型了。那么我们该如何进行调试参数呢?哪些参数是最重要的,需要调整的,哪些参数比较一般,这两个模型又该如何通过代码进行调用呢?下面是一张总结了xgboost,lightbgm,catboost这三个模型调试参数的一些经验, 阅读全文
posted @ 2021-10-17 22:44 Geeksongs 阅读(1315) 评论(0) 推荐(0) 编辑
摘要:Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用,尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。 总体来说,stacking集成算法主要是一种基于“标签”的学习,有以下的特点: 用 阅读全文
posted @ 2021-10-17 13:46 Geeksongs 阅读(5139) 评论(0) 推荐(1) 编辑
摘要:Deep Crossing模型是由微软提出,在微软的搜索引擎bing的搜索广告场景当中,用户除了会返回相关的结果,还会返回相应的广告,因此尽可能的增加广告的点击率,是微软所考虑的重中之重。 因此才设计出了Deep Crossing模型来解决这个问题。这个模型的结构如下所示: 最下面的各种featur 阅读全文
posted @ 2021-10-10 23:26 Geeksongs 阅读(397) 评论(0) 推荐(0) 编辑
摘要:对于AotoRec 这个推荐模型而言,他最经典的地方就是第一次将深度学习引入到了推荐系统当中。这个推荐模型于2015年,澳大利亚国立大学的研究者所提出。整体思想则是使用一个自编码器,将高纬度空间的数据进行提取,并进行还原。这样我们拿到了训练好的自编码器的权重和神经元,就可以用这些来预测我们已有的一些 阅读全文
posted @ 2021-10-10 23:05 Geeksongs 阅读(60) 评论(0) 推荐(0) 编辑
摘要:False Positive (简称FP):判断为正,但是判断错了。(实际为负)False Negative (简称FN):判断为负,但是判断错了。(实际为正)True Positive (简称TP):判断为正,且实际为正。True Negative (简称TN):判断为负,且实际为负。 解释: 不 阅读全文
posted @ 2021-10-08 12:04 Geeksongs 阅读(4158) 评论(0) 推荐(0) 编辑
摘要:综述 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算 阅读全文
posted @ 2021-10-08 10:38 Geeksongs 阅读(963) 评论(0) 推荐(0) 编辑
摘要:基于矩阵的CF算法,一共有很多种,这里给大家解析一下,我们进行对用户对物品评分矩阵进行分解的原因是:我们可以对用户对物品评分矩阵进行分解,得到两个矩阵,一个矩阵是关于用户的,一个矩阵是关于物品的。这种情况下,用户矩阵的每一个用户自己都会对应着一个隐向量,每一个物品矩阵的物品也会有一个自己的有关自己的 阅读全文
posted @ 2021-10-07 21:54 Geeksongs 阅读(442) 评论(0) 推荐(0) 编辑
摘要:这个算法中文名为k均值聚类算法,首先我们在二维的特殊条件下讨论其实现的过程,方便大家理解。 第一步.随机生成质心 由于这是一个无监督学习的算法,因此我们首先在一个二维的坐标轴下随机给定一堆点,并随即给定两个质心,我们这个算法的目的就是将这一堆点根据它们自身的坐标特征分为两类,因此选取了两个质心,什么 阅读全文
posted @ 2020-09-13 09:24 Geeksongs 阅读(1642) 评论(2) 推荐(0) 编辑
摘要:本文翻译自kaggle learn,也就是kaggle官方最快入门kaggle竞赛的教程,强调python编程实践和数学思想(而没有涉及数学细节),笔者在不影响算法和程序理解的基础上删除了一些不必要的废话,毕竟英文有的时候比较啰嗦。 一.决策树算法基本原理 背景:假设你的哥哥是一个投资房地产的大佬, 阅读全文
posted @ 2020-04-03 18:42 Geeksongs 阅读(2544) 评论(2) 推荐(0) 编辑
摘要:如何求协方差矩阵 一. 协方差定义 X、Y 是两个随机变量,X、Y 的协方差 cov(X, Y) 定义为: 其中: 、 二. 协方差矩阵定义 矩阵中的数据按行排列与按列排列求出的协方差矩阵是不同的,这里默认数据是按行排列。即每一行是一个observation(or sample),那么每一列就是一个 阅读全文
posted @ 2019-07-15 17:35 Geeksongs 阅读(42786) 评论(1) 推荐(3) 编辑
摘要:首先我们上代码: from sklearn.feature_extraction.text import CountVectorizer corpus = [ 'UNC played Duke in basketball', 'Duke lost the basketball game', 'I a 阅读全文
posted @ 2019-07-15 15:24 Geeksongs 阅读(461) 评论(0) 推荐(0) 编辑

Coded by Geeksongs on Linux

All rights reserved, no one is allowed to pirate or use the document for other purposes.

点击右上角即可分享
微信分享提示