随笔分类 -  机器学习

摘要:https://mp.weixin.qq.com/s/Fz-CTbZNQWMmtogkyAg0zg https://zhuanlan.zhihu.com/p/146090463#:~:text=%E5%A6%82%E4%BD%95%E5%81%9A%E4%B8%80%E6%AC%A1%E5%AE%8 阅读全文
posted @ 2023-05-07 21:55 光彩照人 阅读(282) 评论(0) 推荐(0) 编辑
摘要:一、针对连续值的分桶 def GreedyFindBin(distinct_values, counts,num_distinct_values, max_bin, total_cnt, min_data_in_bin=3): #INPUT: # distinct_values 保存特征取值的数组, 阅读全文
posted @ 2022-11-18 17:35 光彩照人 阅读(422) 评论(0) 推荐(0) 编辑
摘要:一、MAP(平均精度均值) AP表示Average Precision 其实求的就是PR曲线下面的面积。 以A和E客户为例子画图计算: 3、代码 https://github.com/sparklego/ml/blob/master/metrics/MAP.py 二、nDCG(归一化折损累积增益) 阅读全文
posted @ 2021-07-13 17:39 光彩照人 阅读(1437) 评论(0) 推荐(0) 编辑
摘要:来源:https://mp.weixin.qq.com/s/dOkXKFOwoAjsJ18vJ2rW-w 样本不均的问题大家已经很常见了,我们总是能看到某一个类目的数量远高于其他类目,举个例子,曝光转化数远低于曝光未转化数。样本不均严重影响了模型的效果,甚至影响到我们对模型好坏的判断,因为模型对占比 阅读全文
posted @ 2021-04-22 09:29 光彩照人 阅读(218) 评论(0) 推荐(0) 编辑
摘要:一、kmeans聚类 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import re pd.set_option('max_columns', 600) pd 阅读全文
posted @ 2021-04-03 08:53 光彩照人 阅读(3896) 评论(2) 推荐(0) 编辑
摘要:来源:https://mp.weixin.qq.com/s/ZDSig3Rg_1N0rFKn0Fxqgw 阅读全文
posted @ 2021-02-19 17:57 光彩照人 阅读(120) 评论(0) 推荐(0) 编辑
摘要:原数据: df=pd.DataFrame({'a':[1,2,2,2,3,3,4,5,6]}) sns.kdeplot(df['a']) plt.xlim(-2,10) plt.show() df['a'].describe() 1 count 9.000000 2 mean 3.111111 3 阅读全文
posted @ 2021-01-12 15:10 光彩照人 阅读(8908) 评论(1) 推荐(1) 编辑
摘要:概述:StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同。 import numpy as np from sklearn.model_selection import KFold,StratifiedKFold X=np.ar 阅读全文
posted @ 2020-08-19 11:19 光彩照人 阅读(961) 评论(0) 推荐(0) 编辑
摘要:一、概述 近邻搜索在计算机科学中是一个非常基础的问题,在信息检索、模式识别、机器学习、聚类等领域有着广泛的应用。如果在d维空间中,我们有n个数据点,采用暴力搜索寻找最近邻的时间复杂度为O(dn)。当前我们的数据量越来越大,因此我们需要一些新的数据结构来查找最近邻,使得任意给定一个数据就能快速找到近邻 阅读全文
posted @ 2020-02-01 18:28 光彩照人 阅读(2342) 评论(0) 推荐(0) 编辑
摘要:1.时间窗口划分衍生特征 2.分解类别属性 主要采用one-hot或者编号。 3.分箱 有时候,将数值型属性转换成类别呈现更有意义,同时能使算法减少噪声的干扰,通过将一定范围内的数值划分成确定的块。举个例子,我们预测一个人是否拥有某款衣服,这里年龄是一个确切的因子。其实年龄组是更为相关的因子,所有我 阅读全文
posted @ 2019-03-26 11:20 光彩照人 编辑
摘要:一、函数图形举例解析 函数极值判定定理 1)当该点导数存在,且该导数等于零时,则该点为极值点; 2)当该点导数不存在,左导数和右导数的符号相异时,则该点为极值点。 以一维函数为例,假设原损失函数L曲线如下图: 其中X1是函数的极值点,所以L`(x1)=0。 1、求含L2正则化的极值点 令:f(x)= 阅读全文
posted @ 2019-03-10 22:20 光彩照人 阅读(1168) 评论(0) 推荐(0) 编辑
摘要:一、概述 概率模型有时既含有观测变量,又含有隐变量,如果概率模型的变量都是观测变量,那么给定数据,可以直接利用极大似然估计法或者贝叶斯估计法估计模型参数。但是,当模型同时又含有隐变量时,就不能简单地使用这些方法。EM算法适用于带有隐变量的概率模型的参数估计,利用极大似然估计法逐步迭代求解。 二、je 阅读全文
posted @ 2019-02-25 17:24 光彩照人 阅读(738) 评论(0) 推荐(0) 编辑
摘要:一、理论概述 1)问题引出 先看如下几张图: 从上述图中可以看出,如果将3个图的数据点投影到x1轴上,图1的数据离散度最高,图3其次,图2最小。数据离散性越大,代表数据在所投影的维度上具有越高的区分度,这个区分度就是信息量。如果我们用方差来形容数据的离散性的话,就是数据方差越大,表示数据的区分度越高 阅读全文
posted @ 2019-02-02 14:49 光彩照人 阅读(6680) 评论(0) 推荐(0) 编辑
摘要:一、概念 支持向量机是学习策略的间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。 二、问题类型 1)训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,叫线性可分支持向量机,又称硬间隔支持向量机。 2 阅读全文
posted @ 2019-01-16 12:02 光彩照人 阅读(862) 评论(0) 推荐(0) 编辑
摘要:在构建模型前,需要将样本集划分为训练集、验证集、测试集,按什么比例划分比较合适呢? 在机器学习发展的小数据量时代,常见做法是将所有数据三七分,就是人们常说的70%验证集,30%测试集,如果没有明确设置验证集,也可以按照60%训练,20%验证和20%测试集来划分。这是前几年机器学习领域普遍认可的最好的 阅读全文
posted @ 2018-12-29 14:50 光彩照人 阅读(3085) 评论(0) 推荐(0) 编辑
摘要:一、P-R曲线 P-R曲线刻画查准率和查全率之间的关系,查准率指的是在所有预测为正例的数据中,真正例所占的比例,查全率是指预测为真正例的数据占所有正例数据的比例。 即:查准率P=TP/(TP + FP) 查全率=TP/(TP+FN) 查准率和查全率是一对矛盾的度量,一般来说,查准率高时,查全率往往偏 阅读全文
posted @ 2018-12-18 14:48 光彩照人 阅读(12755) 评论(0) 推荐(0) 编辑
摘要:关联规则定义为: 假设I是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。 关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率; 置信度(confide 阅读全文
posted @ 2018-12-07 10:55 光彩照人 阅读(1079) 评论(0) 推荐(0) 编辑
摘要:流形学习(Manifold Learning)是机器学习中一大类算法的统称,流形学习是非线性的降维方法(an approach to non-linear dimensionality reduction)。PCA、LDA等降维方法基于线性假设,经常会损失数据内部非线性的结构信息;流形学习是线性降维 阅读全文
posted @ 2018-08-05 18:38 光彩照人 阅读(3650) 评论(0) 推荐(0) 编辑
摘要:一、简介 孤立森林(Isolation Forest)是另外一种高效的异常检测算法,它和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的,而不是根据信息增益或者基尼指数来选择。在建树过程中,如果一些样本很快就到达了叶子节点(即叶子到根的距离d很短),那么就被认为很有可能是异常点。 具体步骤 阅读全文
posted @ 2018-06-08 18:00 光彩照人 阅读(6132) 评论(0) 推荐(1) 编辑
摘要:AUC的含义是什么? 答:其含义为,随机给定一个正样本和一个负样本,用一个分类器进行分类和预测,该正样本得分排名比负样本的得分靠前的概率。 利用sklearn画AUC曲线 from sklearn.metrics import roc_curve labels=[1,1,0,0,1] preds=[ 阅读全文
posted @ 2018-06-05 11:09 光彩照人 阅读(823) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示