随笔分类 - 机器学习
机器学习算法
摘要:转载自 word2vec模型cbow与skip-gram的比较 cbow和skip-gram都是在word2vec中用于将文本进行向量表示的实现方法,具体的算法实现细节可以去看word2vec的原理介绍文章。我们这里大体讲下两者的区别,尤其注意在使用当中的不同特点。 在cbow方法中,是用周围词预测
阅读全文
摘要:转自:https://blog.csdn.net/songyunli1111/article/details/82285266 在对分类模型的评价标准中,除了常用的错误率,精确率,召回率和F1度量外,还有两类曲线:ROC曲线和PR曲线,它们都是基于混淆矩阵,在不同分类阈值下两个重要量的关系曲线。 在
阅读全文
摘要:一、介绍 CTR预估全称是Click Through Rate,就是展示给用户的广告或者商品,估计用户点击的概率。公司规模较大的时候,CTR直接影响的价值在数十亿美元的级别。广告支付一个非常流行的模型就是CPC(cost-per-click),就是按照用户的点击来付钱。那么准确的进行CTR预估,展现
阅读全文
摘要:转载自:http://www.cbdio.com/BigData/2015-08/27/content_3750170.htm 1、背景 CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的
阅读全文
摘要:因子机的定义 机器学习中的建模问题可以归纳为从数据中学习一个函数,它将实值的特征向量映射到一个特定的集合中。例如,对于回归问题,集合 T 就是实数集 R,对于二分类问题,这个集合可以是{+1,-1}。对于监督学习,通常有一标注的训练样本集合 线性函数是最简单的建模函数,它假定这个函数可以用参数w来刻
阅读全文
摘要:转自 https://blog.csdn.net/itplus/article/details/21897715
阅读全文
摘要:转自 https://blog.csdn.net/itplus/article/details/21897443
阅读全文
摘要:转自 https://blog.csdn.net/itplus/article/details/21896981
阅读全文
摘要:转自 https://blog.csdn.net/itplus/article/details/21896453
阅读全文
摘要:转载请注明出处: http://blog.csdn.net/u013074302/article/details/76422551 导语 在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语
阅读全文
摘要:【导读】机器学习中,调参是一项繁琐但至关重要的任务,因为它很大程度上影响了算法的性能。手动调参十分耗时,网格和随机搜索不需要人力,但需要很长的运行时间。因此,诞生了许多自动调整超参数的方法。贝叶斯优化是一种用模型找到函数最小值方法,已经应用于机器学习问题中的超参数搜索,这种方法性能好,同时比随机搜索
阅读全文
摘要:类别型特征 Onehot encoding 长度为K的数组上的一个K编码。 长度为K的数组上的一个K编码。 基本方法:与大多数线性算法一起使用 基本方法:与大多数线性算法一起使用 删除第一列可避免共线性 删除第一列可避免共线性 稀疏格式对内存友好 稀疏格式对内存友好 大多数当前实现都不能优雅地处理缺
阅读全文
摘要:LightGBM提出两种新方法:Gradient-based One-Side Sampling (GOSS) 和Exclusive Feature Bundling (EFB)(基于梯度的one-side采样和互斥的特征捆绑) Gradient-based One-Side Sampling 针对
阅读全文
摘要:XGBoost是GBDT的改进和重要实现,主要在于: 提升算法 XGBoost也是一个加法模型,首先其在目标函数中加入了正则化项: 泰勒级数 yi(t)是第i个实例在第t次迭代的预测值,需要加入 ft来最小化以下目标 通过泰勒二阶展开近似来快速优化目标函数 其中 即l的一阶和二阶导数。移除常数项得到
阅读全文
摘要:提升树的学习优化过程中,损失函数平方损失和指数损失时候,每一步优化相对简单,但对于一般损失函数优化的问题,Freidman提出了Gradient Boosting算法,其利用了损失函数的负梯度在当前模型的值: 作为回归问题提升树算法的残差近似值,去拟合一个回归树。 函数空间的数值优化 优化目标是使得
阅读全文
摘要:什么是类不平衡问题 类不平衡(class-imbalance)是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个,就意味着存在类不平衡。 在后文中,把样本数量过少的类别称为“
阅读全文
摘要:K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优
阅读全文
摘要:Ridge回归 由于直接套用线性回归可能产生过拟合,我们需要加入正则化项,如果加入的是L2正则化项,就是Ridge回归,有时也翻译为岭回归。它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项,和一个调节线性回归项和正则化项权重的系数α。损失函数表达式如下: J(θ)=1/2(Xθ−Y)T(
阅读全文
摘要:基本概念 基本概念 基本概念 True Positives,TP:预测为正样本,实际也为正样本的特征数 True Positives,TP:预测为正样本,实际也为正样本的特征数 False Positives,FP:预测为正样本,实际为负样本的特征数 False Positives,FP:预测为正样
阅读全文