随笔分类 - 学习--机器学习
摘要:原文来自微信公众号 深度学习推荐系统(一) 协同过滤 定义 协同过滤 就是协同大家的反馈、评价和意见一起对海量的信息进行过滤,从中筛选出目标用户可能感兴趣的信息的推荐过程。 商品推荐的例子: 电商网站的商品库里一共有四件商品 用户X访问该电商网站,电商网站的推荐系统需要决定是否推荐电视机给用户X 将
阅读全文
摘要:参考: 1、https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html
阅读全文
摘要:在标量、向量和矩阵的求导过程中一定要知道最后结果的形状。 这里总结几个常见的求导形式: 前言: 最基础最重要的,标量对向量求导和向量对标量求导,有两种方式,分子布局和分母布局,不同的方式都是对的,只是结果缺一个转置 1、矩阵乘以列向量,对列向量求导,形如 $\boldsymbol{z} = \bol
阅读全文
摘要:目录 一、softmax 二、normalization 三、standardization 一、softmax 为什么使用softmax,不用normalization? “max” because amplifies probability of largest “soft” because s
阅读全文
摘要:一、最大似然估计与最大后验概率 1、概率与统计 概率与统计是两个不同的概念。 概率是指:模型参数已知,X未知,p(x1) ... p(xn) 都是对应的xi的概率 统计是指:模型参数未知,X已知,根据观测的现象,求模型的参数 2、似然函数与概率函数 似然跟概率是同义词,所以似然也是表示概率,但这个概
阅读全文
摘要:这里主要讲的是对分类模型的评估。 1、准确率(Accuracy) 准确率的定义是:【分类正确的样本】 / 【总样本个数】,其中分类正确的样本是不分正负样本的 优点:简单粗暴 缺点:当正负样本分布不均衡的情况(假设一种极端情况,正样本1个,负样本99个),此时即使一个比较差的模型(只会将所用的样本预测
阅读全文
摘要:前言 L1、L2在机器学习方向有两种含义:一是L1范数、L2范数的损失函数,二是L1、L2正则化 L1范数、L2范数损失函数 L1范数损失函数: L2范数损失函数: L1、L2分别对应损失函数中的绝对值损失函数和平方损失函数 区别: 分析: robust: 与L2相比,L1受异常点影响比较小,因此稳
阅读全文
摘要:Classification: 1、0-1 1)普通01损失函数 针对于二分类问题,Y = {-1, 1}, f为预测结果,f应该是一个连续值,没有经过激励函数加工的数,如果 fy <= 0 为负 该损失函数能够直观的刻画分类的错误率,但是由于其非凸、非光滑的特点,使得算法很难直接对函数进行优化。
阅读全文
摘要:PCA(principle component analysis)主成分分析 理论依据 最大方差理论 最小平方误差理论 一、最大方差理论(白面机器学习) 对一个矩阵进行降维,我们希望降维之后的每一维数据能够有大的方差。 为什么呢? 因为每一维的方差越大,说明数据之间区分度高,想象一个极端的情况,降维
阅读全文
摘要:参考:https://blog.csdn.net/happyhorizion/article/details/77894051 https://blog.csdn.net/acdreamers/article/details/44657745 1、自信息 一件事发生的概率越大,其所带的信息量就越小,
阅读全文
摘要:目录 一、BP原理及求导 二、softmax及求导 一、BP 1、为什么沿梯度方向是上升最快方向 根据泰勒公式对f(x)在x0处展开,得到f(x) ~ f(x0) + f'(x0)(x-x0), 故得到f(x) - f(x0) ~ f'(x0)(x-x0), 所以从x0出发,变化最快,即使f(x)-
阅读全文
摘要:1、怎么证明凸函数, 二阶Hessian矩阵半正定,函数为凸函数 证明参考:https://math.stackexchange.com/questions/946156/proving-convexity-of-a-function-whose-hessian-is-positive-semide
阅读全文
摘要:总结的很棒! https://xijunlee.github.io/2017/06/03/%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%E6%80%BB%E7%BB%93/ 1、随机森林 https://www.cnblogs.com/maybe2030/p/458570
阅读全文
摘要:k-means k-medoids 一、clustering 中的 loss function 关于聚类的性能评价标准 参考博客 可以为外部指标和内部指标,其中外部指标是指 聚类结果与某个 “参考模型" 进行表示, 内部指标直接考察聚类结果不参考模型 外部指标: 1、Jaccard系数 系属于相同类
阅读全文
摘要:函数间隔: yi(wx + b) 几何间隔:将函数间隔除以 || w || KKT约束条件:https://zhuanlan.zhihu.com/p/26514613 KKT条件给出了判断是否为最优解的必要条件,即: 拉格朗日对偶 https://blog.csdn.net/u011327333/a
阅读全文
摘要:一、马尔可夫 简单的来说,马尔可夫过程就是说当前的状态仅和上一个状态有关,它是一种2-gram模型 二、HMM(Hiden Markov model) 隐含马尔可夫模型 描述: HMM是一个时间序列问题。 HMM主要有两个矩阵和两个序列,首先有 n 个状态 Si , 每个状态可以产生 m 个观测值
阅读全文
摘要:决策树解决的是分类问题 特征选择:选择一个合适的特征作为判断节点,可以快速的分类,减少决策树的深度。决策树的目标就是把数据集按对应的类标签进行分类。最理想的情况是,通过特征的选择能把不同类别的数据集贴上对应类标签。特征选择的目标使得分类后的数据集比较纯。如何衡量一个数据集纯度,这里就需要引入数据纯度
阅读全文
摘要:一、逻辑回归 逻辑回归是由线性回归演变过来,线性回归是将X映射到一个实数域,而逻辑回归是将X映射到一个离散集合,因为只是一个分类问题。 1、逻辑回归模型 01分类问题 对于01分类问题,在线性回归后加入一个逻辑函数,即sigmoid函数 逻辑回归是通过最大似然估计来求解参数的,一个样本01的概率分别
阅读全文
摘要:线性回归: 参考博客:http://blog.csdn.net/sxf1061926959/article/details/66976356 线性回归问题就是给点一些点,通过拟合一条直线使这些点到这条直线的距离最近,可以分为一元线性回归和多元线性回归,一元是指 y = mx + b,多元是指:y =
阅读全文
摘要:生成模型与判别模型的区别: 生成模型:生出数据分布的模型, 在处理过程中得到数据的统计信息 p(x|y) 判别模型:判断数据分类的模型; 得到数据的分类, p(y|x) 高斯判别分析模型 http://blog.csdn.net/stdcoutzyx/article/details/9285001
阅读全文