随笔分类 -  机器学习

摘要:参考链接:值得收藏!2023 年,你应该知道的所有机器学习算法~ 阅读全文
posted @ 2023-03-27 13:35 Hider1214 阅读(83) 评论(0) 推荐(0) 编辑
摘要:日常比赛中,常见两种类型:分类和回归。 在回归任务中(对连续值的预测),常见的评估指标(metrics)主要包括: 平均绝对误差 MAE(Mean Absolute Error) 均方误差 MSE(Mean Square Error) 均方根误差 RMSE(Root Mean Square Erro 阅读全文
posted @ 2023-02-06 16:00 Hider1214 阅读(21114) 评论(6) 推荐(1) 编辑
摘要:一、介绍 scikit-learn 包含各种随机样本的生成器,可以用来建立可控制大小和复杂性的人工数据集。 make_blob() —— 聚类生成器 make_classification() —— 单标签分类生成器 make_multilabel_classification() —— 多标签生成 阅读全文
posted @ 2022-03-08 00:20 Hider1214 阅读(4569) 评论(0) 推荐(2) 编辑
摘要:一、业务背景 日常工作、比赛的分类问题中常遇到类别型的因变量存在严重的偏倚,即类别之间的比例严重失调。 样本量差距过大会导致建模效果偏差。 例如逻辑回归不适合处理类别不平衡问题,会倾向于将样本判定为大多数类别,虽然能达到很高的准确率,但是很低的召回率。 出现样本不均衡场景主要有: 异常检测:恶意刷单 阅读全文
posted @ 2022-03-07 16:47 Hider1214 阅读(10319) 评论(0) 推荐(0) 编辑
摘要:最近在打 2022 DCIC 比赛 —— 能源大数据子赛道:虚拟货币挖矿行为识别。 遂对模型融合学习一番。 以此记录。 一、原理 略 二、实操 1.准备数据 ## 数据准备 from sklearn.datasets import make_classification from sklearn.m 阅读全文
posted @ 2022-03-01 23:55 Hider1214 阅读(542) 评论(0) 推荐(0) 编辑
摘要:一、交叉验证 机器学习中常用交叉验证函数:KFold 和 StratifiedKFold。 方法导入: from sklearn.model_selection import KFold, StratifiedKFold StratifiedKFold:采用分层划分的方法(分层随机抽样思想),验证集 阅读全文
posted @ 2022-03-01 00:08 Hider1214 阅读(1995) 评论(0) 推荐(0) 编辑
摘要:一、总体 一般通过偏度和峰度对数据分布形态进行分析,与正态分布进行比较。 正态分布的偏度和峰度都看做零。 实际分析中,如果遇到峰度、偏度不为零情况,即表明变量存在左偏右偏,或者高顶平顶一说。 二、偏度 skewness 1.介绍 偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数 阅读全文
posted @ 2022-02-28 22:25 Hider1214 阅读(2891) 评论(0) 推荐(0) 编辑
摘要:一、介绍 训练集、验证集和测试集在机器学习领域及其常见,后两者容易混用。 在有监督(supervise)的机器学习中,数据集常被切分为2-3部分,即: 训练集(train set) 验证集(validation set) 测试集(test set) 一个形象的比喻: **训练集:**学生的课本,学生 阅读全文
posted @ 2022-01-09 18:41 Hider1214 阅读(4712) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示