摘要:
一、前述 指数平滑法对时间序列上连续的值之间的相关性没有要求。但是,如果你想使用指数平滑法计算出预测区间, 那么预测误差必须是不相关的, 且必须是服从零均值、 方差不变的正态分布。即使指数平滑法对时间序列连续数值之间相关性没有要求,在某种情况下, 我们可以通过考虑数据之间的相关性来创建更好的预测模型 阅读全文
摘要:
一、前述 集成思想就是让很多个训练器决定一个结果,目的:让机器学习效果更好,单个不行,群殴走起。 二、具体 1、概述 2、Bagging模型 全称: bootstrap aggregation(说白了就是并行训练一堆分类器),最典型的代表就是随机森林啦。 随机:数据采样随机,特征选择随机 森林:很多 阅读全文
摘要:
一、前述 SVM在2012年前还是很牛逼的,但是12年之后神经网络更牛逼些,但我们还是很有必要了解SVM的。 二、具体 1、问题引入 要解决的问题:基于以下问题对SVM进行推导 3条线都可以将两边点分类,什么样的决策边界才是最好的呢? 特征数据本身如果就很难分,怎么办呢?计算复杂度怎么样?能实际应用 阅读全文
摘要:
一、前述 上节我们讲解了xgboost的基本知识,本节我们通过实例进一步讲解。 二、具体 1、安装 默认可以通过pip安装,若是安装不上可以通过https://www.lfd.uci.edu/~gohlke/pythonlibs/网站下载相关安装包,将安装包拷贝到Anacoda3的安装目录的Scrr 阅读全文
摘要:
一、前述 在 Kaggle 的很多比赛中,我们可以看到很多 winner 喜欢用 xgboost,而且获得非常好的表现,今天就来看看 xgboost 到底是什么以及如何应用。Gradient boosting 是 boosting 的其中一种方法,所谓 Boosting ,就是将弱分离器 f_i(x 阅读全文
摘要:
一、前述 隐语义模型是近年来推荐系统领域较为热门的话题,它主要是根据隐含特征将用户与物品联系起来。 因为用户和物品之间有着隐含的联系。所以把用户转成隐语义,然后物品转成隐语义组合,通过中介隐含因子连接。 二、具体 1、隐语义模型举例和求解 N代表用户,M代表物体 第一步:先分解 将用户分解成F个因子 阅读全文
摘要:
SVD一般应用场景--推荐系统,图像压缩。 1、直观感受。 SVD其实就是将矩阵分界,直观感受如图。就是将A矩阵分界成U,S,V三个矩阵相乘。一般推荐系统中用的多。S是对角阵,里面的特征值是从大到小排列的。 2、前述知识。 一个矩阵乘以一个向量结果还是一个向量,并且等于原始向量的倍,相当于对原始向量 阅读全文
摘要:
一、前述 架构: 问题: 1、压缩会损失信息 2、长度会影响准确率 解决办法: Attention机制:聚焦模式 “高分辨率”聚焦在图片的某个特定区域并以“低分辨率”,感知图像的周边区域的模式。通过大量实验证明,将attention机制应用在机器翻译,摘要生成,阅读理解等问题上,取得的成效显著。 比 阅读全文
摘要:
一、前述 传统的神经网络每个输入节点之间没有联系, RNN (对中间信息保留): 由图可知,比如第二个节点的输入不仅依赖于本身的输入U1,而且依赖上一个节点的输入W0,U0,同样第三个节点依赖于前两个节点的输入, 假设每一个节点分别代表着“我出生在中国,我说——”的一个预测,则“说”后面则是依赖于前 阅读全文
摘要:
一、前述 二、构建FP_groupth数流程 1、扫描事务数据库D 一次。收集频繁项的集合F 和它们的支持度。对F 按支持度降序排序,结果为频繁项表L。 2、创建FP 树的根节点,以“null”标记它。对亍D 中的每个事务Trans,执行:选择 Trans中的频繁项,并按L 中的次序排序。设排序后的 阅读全文