随笔分类 - 数据分析方法
摘要:在计算的过程中,如何选择合适的算法进行计算,可以参考scikit learn官方给的指导意见:
阅读全文
摘要:探究用户对物品类别的喜好细分 应用pca和K-means实现用户对物品类别的喜好细分划分 数据如下: order_products__prior.csv:订单与商品信息 字段:order_id, product_id, add_to_cart_order, reordered products.cs
阅读全文
摘要:1 降维 1.1 定义 降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程 降低随机变量的个数 正是因为在进行训练的时候,我们都是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大 1.2 降维的两种方式 特征选择 主成分分析(相
阅读全文
摘要:1 k-means算法小结 优点: 1.原理简单(靠近中心点),实现容易 2.聚类效果中上(依赖K的选择) 3.空间复杂度o(N),时间复杂度o(IKN) N为样本点个数,K为中心点个数,I为迭代次数 缺点: 1.对离群点、噪声敏感(中心点易偏移) 2.很难发现大小差别很大的簇及进行增量计算 3.结
阅读全文
摘要:1 误差平方和(SSE) 误差平方和的值越小越好 在k-means中的应用: 公式各部分内容(k=2): 举例: 下图中数据-0.2, 0.4, -0.8, 1.3, -0.7, 均为真实值和预测值的差 总结: SSE图最终的结果,对图松散度的衡量.(eg: SSE(左图)<SSE(右图)) SSE
阅读全文
摘要:1 K-means解释 k-means其实包含两层内容: - K : 初始中心点个数(计划聚类数) - means:求中心点到其他数据点距离的平均值 2 k-means聚类步骤 1、随机设置K个特征空间内的点作为初始的聚类中心 2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚
阅读全文
摘要:1 api介绍 sklearn.cluster.KMeans(n_clusters=8) 参数: n_clusters:开始的聚类中心数量,产生的质心数。 方法: estimator.fit(x) estimator.predict(x) estimator.fit_predict(x) fit_p
阅读全文
摘要:1 聚类算法的概念 一种典型的无监督学习算法, 主要用于将相似的样本自动归到一个类别中 计算样本和样本之间的相似性,一般使用欧式距离 聚类算法分类 粗聚类 细聚类 2 聚类算法与分类算法最大的区别 聚类算法是无监督的学习算法,而分类算法属于监督的学习算法。 3 聚类算法在现实中的应用 用户画像,广告
阅读全文
摘要:1 boosting集成原理 1.1 什么是boosting 随着学习的积累从弱到强,每新加入一个弱学习器,整体能力就会得到提升。 代表算法:Adaboost,GBDT,XGBoost 1.2 实现过程 1.训练第一个学习器 2.调整数据分布 3.训练第二个学习器 4.再次调整数据分布 5.依次训练
阅读全文
摘要:1 Bagging集成原理 目标:把下面的圈和方块进行分类 实现过程: 1.采样不同数据集 2.训练分类器 3.平权投票,获取最终结果 4.主要实现过程小结 2 随机森林构造过程 随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 随机森林 =Bagging +
阅读全文
摘要:1 什么是集成学习 集成学习通过建立几个模型来解决单一预测问题。 工作原理是生成多个分类器/模型,各自独立地学习和作出预测。 最后结合成组合预测,得到优于任何一个单分类的预测。 2 机器学习的两个核心任务 如何优化训练数据 —> 主要用于解决欠拟合问题 如何提升泛化性能 —> 主要用于解决过拟合问题
阅读全文
摘要:1 案例背景 泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。 造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管
阅读全文
摘要:决策树算法api class sklearn.tree.DecisionTreeClassifier(criterion='gini', max_depth=None,random_state=None) criterion 特征选择标准 "gini"或者"entropy",前者代表基尼系数,后者代
阅读全文
摘要:特征提取【了解】 将任意数据(如文本或图像)转换为可用于机器学习的数字特征 特征提取分类:【了解】 字典特征提取(特征离散化) 文本特征提取 图像特征提取 字典特征提取【知道】 字典特征提取就是对类别型数据进行转换 api:sklearn.feature_extraction.DictVectori
阅读全文
摘要:1 文本特征提取 作用:对文本数据进行特征值化 1、sklearn.feature_extraction.text.CountVectorizer(stop_words=[]) 返回词频矩阵 CountVectorizer.fit_transform(X) X:文本或者包含文本字符串的可迭代对象 返
阅读全文
摘要:1 特征提取 1.1 定义 将任意数据(如文本或图像)转换为可用于机器学习的数字特征 注:特征值化是为了计算机更好的去理解数据 特征提取分类 字典特征提取(特征离散化) 文本特征提取 图像特征提取 1.2 特征提取API sklearn.feature_extraction 2 字典特征提取 作用:
阅读全文
摘要:1 为什么要剪枝 1.1 图形描述 横轴表示在决策树创建过程中树的结点总数 纵轴表示决策树的预测精度 实线显示的是决策树在训练集上的精度 虚线显示的则是在一个独立的测试集上测量出来的精度 随着树的增长,在训练样集上的精度是单调上升的, 然而在独立的测试样例上测出的精度先上升后下降。 1.2 出现这种
阅读全文
摘要:常见决策树的启发函数比较 名称 提出时间 分支方式 备注 ID3 1975 信息增益 ID3只能对离散属性的数据集构成决策树 C4.5 1993 信息增益率 优化后解决了ID3分支过程中总喜欢偏向选择值较多的 属性 CART 1984 Gini系数 可以进行分类和回归,可以处理离散属性,也可以处理连
阅读全文
摘要:1 概念 CART决策树使用"基尼指数" (Gini index)来选择划分属性,分类和回归任务都可用。 基尼值Gini(D):从数据集D中随机抽取两个样本,其类别标记不一致的概率 Gini(D)值越小,数据集D的纯度越高。 2 计算 数据集 D 的纯度可用基尼值来度量: \(p_k=\frac{c
阅读全文
摘要:决策树的划分依据-信息增益率C4.5 1 背景 信息增益准则ID3对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的 C4.5 决策树算法[Quinlan, 1993J 不直接使用信息增益,而是使用"增益率" (gain ratio) 来选择最优划分属性. 2 定义 增益率:增
阅读全文