2019年8月12日

搜狐新闻推荐算法原理(转)

摘要: 1.新闻推荐算法架构 新闻算法的核心主要分为两个阶段:召回阶段(retrieval)和排序阶段(ranking)。之所以分为两个阶段,主要是从性能考虑。召回阶段面临的是百万级别甚至千万级别的文章,单篇文章的性能开销必须要小;而排序阶段的算法则非常消耗资源,不可能对所有文章都算一遍,也没有必要这样做, 阅读全文

posted @ 2019-08-12 11:10 农夫三拳有點疼 阅读(779) 评论(0) 推荐(0) 编辑

ALS的Spark实现

摘要: 1.ALS算法流程: 初始化数据集和Spark环境 >切分测试机和检验集 >训练ALS模型 >验证结果 >检验满足结果 >直接推荐商品,否则继续训练ALS模型 2.数据集的含义 Rating是固定的ALS输入格式,要求是一个元组类型的数据,其中数值分别是如下的[Int,Int,Double],在建立 阅读全文

posted @ 2019-08-12 10:41 农夫三拳有點疼 阅读(138) 评论(0) 推荐(0) 编辑

LDA主题模型

摘要: 1、LDA概述 在机器学习领域,LDA是两个常用模型的简称:线性判别分析(Linear Discriminant Analysis)和 隐含狄利克雷分布(Latent Dirichlet Allocation)。本文的LDA仅指代Latent Dirichlet Allocation. LDA 在主 阅读全文

posted @ 2019-08-12 10:21 农夫三拳有點疼 阅读(303) 评论(0) 推荐(0) 编辑

jieba分词

摘要: 在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名、地名等需要考虑作为一个整体,比如New York)。而对于中文还有其他类似形式的语言,我们需要根据来特殊处理分词。而在中文分词中最好用的方法可以说是jieba分词。接下来我们来介绍下jieba分词的特点、原 阅读全文

posted @ 2019-08-12 10:19 农夫三拳有點疼 阅读(1990) 评论(0) 推荐(0) 编辑

LightGBM介绍及参数调优

摘要: 1、LightGBM简介 LightGBM是一个梯度Boosting框架,使用基于决策树的学习算法。它可以说是分布式的,高效的,有以下优势: 1)更快的训练效率 2)低内存使用 3)更高的准确率 4)支持并行化学习 5)可以处理大规模数据 与常见的机器学习算法对比,速度是非常快的 2、XGboost 阅读全文

posted @ 2019-08-12 10:17 农夫三拳有點疼 阅读(1113) 评论(0) 推荐(0) 编辑

机器学习中常见的损失函数

摘要: 损失函数是机器学习中常用于优化模型的目标函数,无论是在分类问题,还是回归问题,都是通过损失函数最小化来求得我们的学习模型的。损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数是指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项。通常表示为: θ*是我们通过损失函 阅读全文

posted @ 2019-08-12 10:11 农夫三拳有點疼 阅读(201) 评论(0) 推荐(0) 编辑

决策树(ID3, C4.5, CART)

摘要: 决策树是既可以作为分类算法,又可以作为回归算法,而且在经常被用作为集成算法中的基学习器。决策树是一种很古老的算法,也是很好理解的一种算法,构建决策树的过程本质上是一个递归的过程,采用if-then的规则进行递归(可以理解为嵌套的 if - else 的条件判断过程),关于递归的终止条件有三种情形: 阅读全文

posted @ 2019-08-12 10:10 农夫三拳有點疼 阅读(266) 评论(0) 推荐(0) 编辑

支持向量机(SVM)

该文被密码保护。 阅读全文

posted @ 2019-08-12 10:09 农夫三拳有點疼 阅读(2) 评论(0) 推荐(0) 编辑

GBDT与XGBOOST对比

摘要: Boosting方法实际上是采用加法模型与前向分布算法。Adaboost算法也可以用加法模型和前向分布算法来表示。以决策树为基学习器的提升方法称为提升树(Boosting Tree)。对分类问题决策树是CART分类树,对回归问题决策树是CART回归树。 1、前向分布算法 引入加法模型 在给定了训练数 阅读全文

posted @ 2019-08-12 10:07 农夫三拳有點疼 阅读(575) 评论(0) 推荐(0) 编辑

Adaboost与RandomForest对比

摘要: 1、集成学习概述 集成学习算法可以说是现在最火爆的机器学习算法,参加过Kaggle比赛的同学应该都领略过集成算法的强大。集成算法本身不是一个单独的机器学习算法,而是通过将基于其他的机器学习算法构建多个学习器并集成到一起。集成算法可以分为同质集成和异质集成,同质集成是值集成算法中的个体学习器都是同一类 阅读全文

posted @ 2019-08-12 10:06 农夫三拳有點疼 阅读(1039) 评论(0) 推荐(0) 编辑

导航