摘要:
机器学习 类别不平衡 机器学习之类别不平衡问题 (1) —— 各种评估指标 机器学习之类别不平衡问题 (2) —— ROC和PR曲线 机器学习之类别不平衡问题 (3) —— 采样方法 集成学习 集成学习之Boosting —— AdaBoost原理 集成学习之Boosting —— AdaBoost 阅读全文
摘要:
推荐系统的主要目的是从海量物品库中高效检索用户最感兴趣的物品,既然是“海量”,意味着用户基本不可能浏览完所有的物品,所以才需要推荐系统来辅助用户高效获取感兴趣的信息。同样也正是因为“海量”,由于算力的限制,复杂模型也是很难直接遍历每个物品算出分数来排序。如今的推荐系统通常大致分为召回 (retrie 阅读全文
摘要:
如今的推荐系统,对于实时性的要求越来越高,实时推荐的流程大致可以概括为这样: 推荐系统对于用户的请求产生推荐,用户对推荐结果作出反馈 (购买/点击/离开等等),推荐系统再根据用户反馈作出新的推荐。这个过程中有两个值得关注的地方: 这可被视为是一个推荐系统和用户不断交互、互相影响的过程。 推荐系统需要 阅读全文
摘要:
在线学习想要解决的问题 在线学习 ( \(\it{Online \;Learning}\) ) 代表了一系列机器学习算法,特点是每来一个样本就能训练,能够根据线上反馈数据,实时快速地进行模型调整,使得模型及时反映线上的变化,提高线上预测的准确率。相比之下,传统的批处理方式需要一次性收集所有数据,新数 阅读全文
摘要:
本文介绍 C/C++ 中的存储类别。所谓的“存储类别”究竟是什么意思? 存储类别主要指在内存中存储数据的方式,其大致牵涉到变量的三个方面 —— 作用域、链接性和存储期,也就是说这三个方面决定了存储类别。下面先解释这三个概念,再介绍在 C/C++ 中的表示形式。 存储类别定义 作用域 (scope) 阅读全文
摘要:
前言 本篇演示如何使用 AWS EC2 云服务搭建集群。当然在只有一台计算机的情况下搭建完全分布式集群,还有另外几种方法:一种是本地搭建多台虚拟机,好处是免费易操控,坏处是虚拟机对宿主机配置要求较高; 另一种方案是使用 AWS EMR ,是亚马逊专门设计的集群平台,能快速启动集群,且具有较高的灵活性 阅读全文
摘要:
协同过滤是一类基于用户行为数据的推荐方法,主要是利用已有用户群体过去的行为或意见来预测当前用户的偏好,进而为其产生推荐。能用于协同过滤的算法很多,大致可分为:基于最近邻推荐和基于模型的推荐。其中基于最近邻推荐主要是通过计算用户或物品之间的相似度来进行推荐,而基于模型的推荐则通常要用到一些机器学习算法 阅读全文
摘要:
拉格朗日乘子法 - KKT条件 - 对偶问题 支持向量机 (一): 线性可分类 svm 支持向量机 (二): 软间隔 svm 与 核函数 支持向量机 (三): 优化方法与支持向量回归 优化方法 一、SMO算法 回顾 支持向量机 (二) 中 \((1.7)\) 式最后要求解的优化问题: \[ \beg 阅读全文
摘要:
"拉格朗日乘子法 KKT条件 对偶问题" "支持向量机 (一): 线性可分类 svm" 支持向量机 (二): 软间隔 svm 与 核函数 "支持向量机 (三): 优化方法与支持向量回归" 软间隔最大化(线性不可分类svm) 上一篇求解出来的间隔被称为 “硬间隔(hard margin)“,其可以将所 阅读全文
摘要:
拉格朗日乘子法 - KKT条件 - 对偶问题 支持向量机 (一): 线性可分类 svm 支持向量机 (二): 软间隔 svm 与 核函数 支持向量机 (三): 优化方法与支持向量回归 支持向量机(support vector machine, 以下简称 svm)是机器学习里的重要方法,特别适用于中小 阅读全文
摘要:
拉格朗日乘子法 KKT条件 对偶问题 "支持向量机 (一): 线性可分类 svm" "支持向量机 (二): 软间隔 svm 与 核函数" "支持向量机 (三): 优化方法与支持向量回归" 接下来准备写支持向量机,然而支持向量机和其他算法相比牵涉较多的数学知识,其中首当其冲的就是标题中的拉格朗日乘子法 阅读全文