机器学习 - 随笔分类 - FlyingWarrior

word2vec模型cbow与skip-gram的比较

摘要：转载自 word2vec模型cbow与skip-gram的比较 cbow和skip-gram都是在word2vec中用于将文本进行向量表示的实现方法，具体的算法实现细节可以去看word2vec的原理介绍文章。我们这里大体讲下两者的区别，尤其注意在使用当中的不同特点。在cbow方法中，是用周围词预测阅读全文

posted @ 2019-04-15 21:19 FlyingWarrior 阅读(792) 评论(0) 推荐(1) 编辑

为什么ROC曲线不受样本不均衡问题的影响

摘要：转自：https://blog.csdn.net/songyunli1111/article/details/82285266 在对分类模型的评价标准中，除了常用的错误率，精确率，召回率和F1度量外，还有两类曲线：ROC曲线和PR曲线，它们都是基于混淆矩阵，在不同分类阈值下两个重要量的关系曲线。在阅读全文

posted @ 2019-03-29 17:21 FlyingWarrior 阅读(1595) 评论(0) 推荐(2) 编辑

Deep & Cross Network总结

摘要：一、介绍 CTR预估全称是Click Through Rate，就是展示给用户的广告或者商品，估计用户点击的概率。公司规模较大的时候，CTR直接影响的价值在数十亿美元的级别。广告支付一个非常流行的模型就是CPC(cost-per-click)，就是按照用户的点击来付钱。那么准确的进行CTR预估，展现阅读全文

posted @ 2019-01-31 11:44 FlyingWarrior 阅读(7119) 评论(0) 推荐(1) 编辑

CTR预估之LR与GBDT融合

摘要：转载自：http://www.cbdio.com/BigData/2015-08/27/content_3750170.htm 1、背景 CTR预估，广告点击率（Click-Through Rate Prediction）是互联网计算广告中的关键环节，预估准确性直接影响公司广告收入。CTR预估中用的阅读全文

posted @ 2019-01-18 15:23 FlyingWarrior 阅读(814) 评论(0) 推荐(0) 编辑

FM与FFM深入解析

摘要：因子机的定义机器学习中的建模问题可以归纳为从数据中学习一个函数，它将实值的特征向量映射到一个特定的集合中。例如，对于回归问题，集合 T 就是实数集 R，对于二分类问题，这个集合可以是{+1，-1}。对于监督学习，通常有一标注的训练样本集合线性函数是最简单的建模函数，它假定这个函数可以用参数w来刻阅读全文

posted @ 2019-01-17 18:18 FlyingWarrior 阅读(2869) 评论(0) 推荐(0) 编辑

牛顿法与拟牛顿法(五) L-BFGS 算法

摘要：转自 https://blog.csdn.net/itplus/article/details/21897715 阅读全文

posted @ 2019-01-03 15:15 FlyingWarrior 阅读(321) 评论(0) 推荐(0) 编辑

牛顿法与拟牛顿法(四) BFGS 算法

摘要：转自 https://blog.csdn.net/itplus/article/details/21897443 阅读全文

posted @ 2019-01-03 15:12 FlyingWarrior 阅读(382) 评论(0) 推荐(0) 编辑

牛顿法与拟牛顿法(三) DFP算法

摘要：转自 https://blog.csdn.net/itplus/article/details/21896981 阅读全文

posted @ 2019-01-03 15:07 FlyingWarrior 阅读(665) 评论(0) 推荐(0) 编辑

牛顿法与拟牛顿法(二) 拟牛顿条件

摘要：阅读全文

posted @ 2019-01-03 12:06 FlyingWarrior 阅读(477) 评论(0) 推荐(0) 编辑

牛顿法与拟牛顿法(一) 牛顿法

摘要：转自 https://blog.csdn.net/itplus/article/details/21896453 阅读全文

posted @ 2019-01-02 20:57 FlyingWarrior 阅读(340) 评论(0) 推荐(0) 编辑

DSSM算法-计算文本相似度

摘要：转载请注明出处： http://blog.csdn.net/u013074302/article/details/76422551 导语在NLP领域，语义相似度的计算一直是个难题：搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语阅读全文

posted @ 2018-12-21 17:39 FlyingWarrior 阅读(38767) 评论(2) 推荐(9) 编辑

自动机器学习超参数调整（贝叶斯优化）

摘要：【导读】机器学习中，调参是一项繁琐但至关重要的任务，因为它很大程度上影响了算法的性能。手动调参十分耗时，网格和随机搜索不需要人力，但需要很长的运行时间。因此，诞生了许多自动调整超参数的方法。贝叶斯优化是一种用模型找到函数最小值方法，已经应用于机器学习问题中的超参数搜索，这种方法性能好，同时比随机搜索阅读全文

posted @ 2018-11-27 12:01 FlyingWarrior 阅读(41194) 评论(4) 推荐(1) 编辑

特征工程常用方法总结

摘要：类别型特征 Onehot encoding 长度为K的数组上的一个K编码。长度为K的数组上的一个K编码。基本方法：与大多数线性算法一起使用基本方法：与大多数线性算法一起使用删除第一列可避免共线性删除第一列可避免共线性稀疏格式对内存友好稀疏格式对内存友好大多数当前实现都不能优雅地处理缺阅读全文

posted @ 2018-10-22 17:52 FlyingWarrior 阅读(5552) 评论(0) 推荐(0) 编辑

LightGBM新特性总结

摘要：LightGBM提出两种新方法：Gradient-based One-Side Sampling (GOSS) 和Exclusive Feature Bundling (EFB)（基于梯度的one-side采样和互斥的特征捆绑） Gradient-based One-Side Sampling 针对阅读全文

posted @ 2018-09-25 15:36 FlyingWarrior 阅读(3139) 评论(0) 推荐(0) 编辑

XGBoost原理简介

摘要：XGBoost是GBDT的改进和重要实现，主要在于：提升算法 XGBoost也是一个加法模型，首先其在目标函数中加入了正则化项：泰勒级数 yi(t)是第i个实例在第t次迭代的预测值，需要加入 ft来最小化以下目标通过泰勒二阶展开近似来快速优化目标函数其中即l的一阶和二阶导数。移除常数项得到阅读全文

posted @ 2018-09-25 11:33 FlyingWarrior 阅读(2383) 评论(0) 推荐(0) 编辑

梯度提升树GBDT总结

摘要：提升树的学习优化过程中，损失函数平方损失和指数损失时候，每一步优化相对简单，但对于一般损失函数优化的问题，Freidman提出了Gradient Boosting算法，其利用了损失函数的负梯度在当前模型的值：作为回归问题提升树算法的残差近似值，去拟合一个回归树。函数空间的数值优化优化目标是使得阅读全文

posted @ 2018-09-21 15:00 FlyingWarrior 阅读(357) 评论(0) 推荐(0) 编辑

正负样本不平衡问题

摘要：什么是类不平衡问题类不平衡（class-imbalance）是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题，1000个训练样本，比较理想的情况是正类、负类样本的数量相差不多；而如果正类样本有995个、负类样本仅5个，就意味着存在类不平衡。在后文中，把样本数量过少的类别称为“ 阅读全文

posted @ 2018-09-19 18:36 FlyingWarrior 阅读(2556) 评论(0) 推荐(0) 编辑

K-Means算法总结

摘要：K-Means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。K-Means算法有大量的变体，本文从最传统的K-Means算法讲起，在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优阅读全文

posted @ 2018-09-04 16:53 FlyingWarrior 阅读(1001) 评论(0) 推荐(0) 编辑

Lasso回归总结

摘要：Ridge回归由于直接套用线性回归可能产生过拟合，我们需要加入正则化项，如果加入的是L2正则化项，就是Ridge回归，有时也翻译为岭回归。它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项，和一个调节线性回归项和正则化项权重的系数α。损失函数表达式如下： J(θ)=1/2(Xθ−Y)T( 阅读全文

posted @ 2018-08-29 16:32 FlyingWarrior 阅读(31932) 评论(0) 推荐(3) 编辑

分类算法评估指标

摘要：基本概念基本概念基本概念 True Positives,TP：预测为正样本，实际也为正样本的特征数 True Positives,TP：预测为正样本，实际也为正样本的特征数 False Positives,FP：预测为正样本，实际为负样本的特征数 False Positives,FP：预测为正样阅读全文

posted @ 2018-08-29 14:58 FlyingWarrior 阅读(471) 评论(0) 推荐(0) 编辑

FlyingWarrior

step by step

随笔分类 - 机器学习

公告