上一页 1 ··· 7 8 9 10 11 12 13 下一页
摘要: 降维 (dimensionality reduction)就是减少数据特征的维度 作用 使得数据集更易使用 降低很多算法的计算开销 去除噪声 使得结果易懂 PCA(主成分分析 Principal Component Analysis) PCA 将数据从原来的坐标系转换到了新的坐标系 第一个新坐标轴选 阅读全文
posted @ 2020-03-14 18:40 moon~light 阅读(385) 评论(0) 推荐(0) 编辑
摘要: FP growth(Frequent Pattern Growth)算法用于发现频繁项集 作用:比 Apriori 更高效的发现频繁项集 特点:快于 Apriori、实现比较困难 Apriori 每次增加频繁项集的大小,都会重新扫描整个数据集 当数据集很大时,这会显著降低频繁项集发现的速度 FP g 阅读全文
posted @ 2020-03-14 15:34 moon~light 阅读(391) 评论(0) 推荐(0) 编辑
摘要: 优点:易编码实现 缺点:在大数据集上可能较慢 从大规模数据集中寻找物品间的隐含关系被称作 关联分析 (association analysis)或者 关联规则学习 (association rule learning) 比如购买商品 A 的顾客有多大概率同时购买商品 B,比如用户在搜索框输入 "py 阅读全文
posted @ 2020-03-12 23:32 moon~light 阅读(230) 评论(0) 推荐(0) 编辑
摘要: K Mean(K 均值聚类)算法用于将数据集分成 K 个簇,K 值是由用户给定的 优点:容易实现 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢 算法 随机初始化 k 个簇中心点 每个中心点的每个特征值在所有样本的最大值和最小值之间随机取一个 每个样本分到距离最近的簇 取分到该簇的所有样本的均 阅读全文
posted @ 2020-03-10 01:37 moon~light 阅读(324) 评论(0) 推荐(0) 编辑
摘要: CART(Classification And Regression Trees,分类回归树)算法既可以用于分类也可以用于回归 优点:可以对复杂和非线性的数据建模 缺点:结果不易理解 线性回归需要拟合所有的样本(局部加权线性回归除外),当特征众多并且特征之间关系十分复杂时,构建全局模型的想法就显得太 阅读全文
posted @ 2020-03-09 23:51 moon~light 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 优点:结果易于理解,计算上不复杂 缺点:对非线性的数据拟合不好 线性回归 用于数值预测,回归方程为 $\large y = x_{1}w_{1} + x_{2}w_{2} + ... + x_{n}w_{n} + b$ 写成矩阵形式 $\large y = XW + b$ 为方便计算,添加 $\la 阅读全文
posted @ 2020-03-08 22:12 moon~light 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 加法 $\large A + B = B + A$ $\large (A + B) + C = A + (B + C)$ 与数相乘 $\large (λμ)A=λ(μA)$ $\large (λ+μ)A =λA+μA$ $\large λ (A+B)=λA+λB$ 矩阵相乘 $\large (AB) 阅读全文
posted @ 2020-03-08 22:06 moon~light 阅读(1776) 评论(0) 推荐(0) 编辑
摘要: xgboost(eXtreme Gradient Boosting) 大规模并行 boosting tree 的工具,据说是现在最好用的 boosting 算法,针对传统 GBDT 算法做了很多改进 xgboost 和传统 GBDT 的区别 GBDT 基学习器只用 CART 树,而 xgboost 阅读全文
posted @ 2020-03-07 19:46 moon~light 阅读(344) 评论(0) 推荐(0) 编辑
摘要: GBDT(Gradient Boosting Decison Tree):梯度提升决策树 GBDT 的弱学习器通常使用 CART 回归树 GBDT 的核心在于,每棵树学的是之前所有树的结论和的残差,比如 A 的年龄 18 岁,第一棵树依据特征值预测 12 岁,差 6 岁,即残差为 6 岁,那么第二棵 阅读全文
posted @ 2020-03-02 01:49 moon~light 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 不同的分类算法各有优缺点,可以将不同的分类器组合起来 这种组合被称为集成方法(ensemble method)或者元算法(meta algorithm) 使用集成方法有多种形式 ○ 可以是不同算法的集成 ○ 可以是同一算法在不同设置下的集成 ○ 可以是数据集不同部分分配给不同 阅读全文
posted @ 2020-02-29 19:42 moon~light 阅读(898) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 下一页