随笔分类 - 机器学习
摘要:回归模型是机器学习中很重要的一类模型,不同于常见的分类模型,回归模型的性能评价指标跟分类模型也相差很大,这里简单基于工作中的一点实践来记录一下基于sklearn库计算回归模型中常用的四大评价指标主要包括:explained_variance_score、mean_absolute_error、mea
阅读全文
摘要:对于巨型互联网公司来说,为了控制数据规模,降低训练开销,降采样几乎是通用的手段,facebook 实践了两种降采样的方法,uniform subsampling 和 negative down sampling。 1、uniform subsampling uniform subsampling 是
阅读全文
摘要:问题:如果分布P和Q,KL(P||Q)很大而KL(Q||P)很小表示什么现象? 还是看定义吧。直观来说,这是对随机变量的每个取值上,这个值的加权平均。这里加权的权值是 (其实就是算了个期望)。 在大的地方,想让KL散度小,我们需要让的值尽量也大;而当本身小的时候,对整个KL的影响却没有那么大(因为l
阅读全文
摘要:1、AUC(Area Under Curve)原理 ROC(Receiver Operating Characteristic)曲线与AUC(Area Under Curve) ROC曲线: 横坐标:假正率(False positive rate, FPR),FPR = FP / [ FP + TN
阅读全文
摘要:1、Sigmoid、Softmax 函数 (1)Sigmoid Sigmoid =多标签分类问题=多个正确答案=非独占输出(例如胸部X光检查、住院)。构建分类器,解决有多个正确答案的问题时,用Sigmoid函数分别处理各个原始输出值。 Sigmoid函数是一种logistic函数,它将任意的值转换到
阅读全文
摘要:参考文献:https://www.zhihu.com/question/34819617 id 类特征 会极大提高模型的个性化能力和实际效果。而且可以对抗热度穿透现象。 假设一个最简单的问题,预估广告的点击率CTR。为了便于讨论,假设你只有一个特征,就是每次展现广告在过去一个时间窗内的历史点击率ct
阅读全文
摘要:参考文档:https://lumingdong.cn/application-practice-of-embedding-in-recommendation-system.html 1、Embedding的理解 Embedding,即嵌入,起先源自于 NLP 领域,称为词嵌入(word embedd
阅读全文
摘要:1、Embedding 和 One Hot 编码区别? 在 embedding 空间中查找最近邻,这可以很好的用于根据用户的兴趣来进行推荐。 2)作为监督性学习任务的输入。 3)用于可视化不同离散变量之间的关系。 在深度神经网络中你如果直接接入onehot,那么你需要训练的参数维度也是爆炸式增长的,
阅读全文
摘要:一个完整的机器学习项目一般流程包括: 1、抽象成数学问题 首先要明确问题,分类还是回归,尽量避免胡乱尝试; 2、数据获取及分析 获取的数据要有代表性,否则必然会过拟合。 而且对于分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。 而且还要对数据的量级有一个评估,多少个样本,多
阅读全文
摘要:协同过滤的模型一般为m个物品,m个用户的数据,只有部分用户和部分数据之间是有评分数据的,其它部分评分是空白,此时我们要用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系,找到最高评分的物品推荐给用户。 一般来说,协同过滤推荐分为三种类型。第一种是基于用户(user-based)的协同过滤,
阅读全文
摘要:1、推荐系统目的 (1)帮助用户找到想要的商品(新闻/音乐/……),发掘长尾 (2)降低信息过载 (3)提高站点的点击率/转化率 (4)加深对用户的了解,为用户提供定制化服务 2、推荐算法概述 推荐算法是非常古老的,在机器学习还没有兴起的时候就有需求和应用了。概括来说,可以分为以下5种: 1)基于内
阅读全文
摘要:1、EM算法要解决的问题 如果使用基于最大似然估计的模型,模型中存在隐变量,就要用EM算法做参数估计。 EM算法解决这个的思路是使用启发式的迭代方法,既然我们无法直接求出模型分布参数,那么我们可以先猜想隐含数据(EM算法的E步),接着基于观察数据和猜测的隐含数据一起来极大化对数似然,求解我们的模型参
阅读全文
摘要:1、红黑树 R-B Tree,全称是Red-Black Tree,又称为“红黑树”,它一种特殊的二叉查找树。红黑树的每个节点上都有存储位表示节点的颜色,可以是红(Red)或黑(Black)。 红黑树的特性:(1)每个节点或者是黑色,或者是红色。(2)根节点是黑色。(3)每个叶子节点(NIL)是黑色。
阅读全文
摘要:最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum aposteriori estimation, 简称MAP)是很常用的两种参数估计方法。 1、最大似然估计(MLE) 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分
阅读全文
摘要:1、首先 Error = Bias + Variance Error反映的是整个模型的准确度, Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度, Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。 2、Bias与Variance往往是不能兼
阅读全文
摘要:1、概念 L0正则化的值是模型参数中非零参数的个数。 L1正则化表示各个参数绝对值之和。 L2正则化标识各个参数的平方的和的开方值。 2、问题 1)实现参数的稀疏有什么好处吗? 一个好处是可以简化模型,避免过拟合。因为一个模型中真正重要的参数可能并不多,如果考虑所有的参数起作用,那么对训练数据可以预
阅读全文
摘要:1、数据清理中,处理缺失值的方法有两种: 删除法:1)删除观察样本 2)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除 3)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析 4)改变权重:当删除缺失数据会改变数据结构时,通
阅读全文
摘要:特征工程:特征选择,特征表达和特征预处理。 1、特征选择 特征选择也被称为变量选择和属性选择,它能够自动地选择数据中目标问题最为相关的属性。是在模型构建时中选择相关特征子集的过程。 特征选择与降维不同。虽说这两种方法都是要减少数据集中的特征数量,但降维相当于对所有特征进行了重新组合,而特征选择仅仅是
阅读全文
摘要:1、判别模型和生成模型总结 判别方法:由数据直接学习决策函数 Y = f(X),或者由条件分布概率 P(Y|X)作为预测模型,即判别模型。 生成方法:由数据学习联合概率密度分布函数 P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。 由生成模型可以得到判别模型,但由判别模型得
阅读全文
摘要:1、官网下载kaggle数据集Homesite Competition数据集,文件结构大致如下: 2、代码实战
阅读全文