随笔分类 - 机器学习算法
摘要:BIRCH:Balanced Iterative Reducing and Clustering Using Hierarchies 算法通过聚类特征树CF Tree:Clustering Feature True来执行层次聚类,适合于样本量较大、聚类类别数较大的场景。
阅读全文
摘要:层次聚类hierarchical clustering 试图在不同层次上对数据集进行划分,从而形成树形的聚类结构。 一、 AGNES AGglomerative NESting:AGNES是一种常用的采用自底向上聚合策略的层次聚类算法。
阅读全文
摘要:Mean-Shift 是基于核密度估计的爬山算法,可以用于聚类、图像分割、跟踪等领域。
阅读全文
摘要:密度聚类density-based clustering假设聚类结构能够通过样本分布的紧密程度确定。 密度聚类算法从样本的密度的角度来考察样本之间的可连接性,并基于可连接样本的不断扩张聚类簇,从而获得最终的聚类结果。 一、DBSCAN算法 1.介绍 DBSCAN是一种著名的密度聚类算法,它基于一组邻
阅读全文
摘要:原型聚类prototype-based clustering假设聚类结构能通过一组原型刻画。 常见的原型聚类有: k均值算法k-means 学习向量量化算法Learning Vector Quantization:LVQ 高斯混合聚类Mixture-of-Gaussian 一、k-means算法 1
阅读全文
摘要:一、性能度量 聚类的性能度量也称作聚类的有效性指标。 聚类的性能度量分两类: 聚类结果与某个参考模型进行比较,称作外部指标; 直接考察聚类结果而不利用任何参考模型,称作内部指标。 1. 外部指标 对于数据集$D={x_1,x_2,...,x_N}$,假定通过聚类给出的簇划分为$C={C_1,C_2,
阅读全文
摘要:1.工作原理: 存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较,提取出样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个
阅读全文
摘要:t分布随机近邻嵌入(t-distributed Stohastic Neighbor Embedding) 基本思路:为高维特征空间在二维平面(或三维超平面,不过基本上总是使用二维空间)上寻找一个投影,使得在原本的n维空间中相距很远的数据点在屏幕上同样相距较远,而原本相近的点在平面上仍然相近。本质上
阅读全文
摘要:novelty detection:当训练数据中没有离群点,我们的目标是用训练好的模型去检测另外发现的新样本 outlier dection:当训练数据中包含离群点,模型训练时要匹配训练数据的中心样本,忽视训练样本中的其他异常点。 一、outlier dection 1.孤立森林(Isolation
阅读全文
摘要:协同过滤需要注意的三点: gray sheep(有人喜欢追求特别,协同过滤一般只能从共同的人或物间找相似) shilling attack(水军刷好评导致数据错误,无法带来精确的推荐) cold start(冷启动,初次登陆网站,没有给商品打分,怎么推荐) 1.基于memory的CF (1)基于用户
阅读全文
摘要:在adaboost当中,样本的权重alpha是固定的,蓝色五角星所在的圈中3个○分错了,红色五角星所在的圈中4个×和1个○都分对了,很容易让人想到,这个模型,对于红色位置的判断更加可信。 动态权重,每个x都会有特定的权重,不同的分类器对于不同的样本的权重是不一样的 base classifer:分○
阅读全文
摘要:一、Catboost简介 全称:Gradient Boosting(梯度提升) + Categorical Features(类别型特征) 作者:俄罗斯的搜索巨头Yandex 官方地址 论文链接 | 项目地址 文档地址 视频 二、Catboost的特点 一般来说,Gradient Boosting(
阅读全文
摘要:(一)Arima模型 时间序列建模基本步骤 获取被观测系统时间序列数据; 对数据绘图,观测是否为平稳时间序列;对于非平稳时间序列要先进行d阶差分运算,化为平稳时间序列; 经过第二步处理,已经得到平稳时间序列。要对平稳时间序列分别求得其自相关系数ACF 和偏自相关系数PACF ,通过对自相关图和偏自相
阅读全文
摘要:传统CTR预估模型包括:LR、FM、GBDT等,其优点是:可解释性强、训练和部署方便、便于在线学习。 (一)CTR预估 1.在cost-per-click:CPC广告中广告主按点击付费。为了最大化平台收入和用户体验,广告平台必须预测广告的CTR,称作predict CTR:pCTR。对每个用户的每次
阅读全文
摘要:一、LightGBM简介: 所属:boosting迭代型、树类算法 适用范围:回归/分类/排序 LightGBM工具包:lightGBM英文文档 | lightGBM中文文档 论文链接 优点: 基于Histogram的决策树算法 带深度限制的Leaf-wise的叶子生长策略 直方图做差加速 直接支持
阅读全文
摘要:随机森林:是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。随机森林对回归的结果在内部是取得平均但是并不是所有的回归都是取的平均,有些是取的和。 随机森林里的随机 极限树/极端随机树里的随机 样本随机 特征随机 参数随机 模型随机(ID3 ,C4.5) 特征随机 参数随
阅读全文
摘要:一、简介 全称:eXtreme Gradient Boosting 作者:陈天奇 基础:GBDT 所属:boosting迭代型、树类算法 适用范围:回归,分类,排序 xgboost工具包:sklearn xgboost链接 | xgboost工具包(中文)链接 | xgboost工具包(英文)链接
阅读全文
摘要:一、简介 Boosting 是一类算法的总称,这类算法的特点是通过训练若干弱分类器,然后将弱分类器组合成强分类器进行分类。为什么要这样做呢?因为弱分类器训练起来很容易,将弱分类器集成起来,往往可以得到很好的效果。俗话说,"三个臭皮匠,顶个诸葛亮",就是这个道理。这类 boosting 算法的特点是各
阅读全文