2019 年 6月 8 日随笔档案 - 我的数据之路

2019年6月8日

摘要： K-means聚类将n个观测点，按一定标准（数据点的相似度），划归到k个聚类（用户划分、产品类别划分等）中。重要概念：质心 K-means聚类要求的变量是数值变量，方便计算距离。算法实现 R语言实现 k-means算法是将数值转换为距离，然后测量距离远近进行聚类的。不归一化的会使得距离非常远。阅读全文

posted @ 2019-06-08 17:50 我的数据之路阅读(6925) 评论(0) 推荐(0) 编辑

机器学习-线性回归补充-实践

摘要：线性回归分析过程中可能会遇到的问题选定自变量时候要注意：去除多重共线性干扰什么是多重共线性干扰？强相关变量多重共线性避免将两个强相关变量输入到一个模型中，解决办法是只保留一个。消除多重共线性的方法：如果GVIF>10 则需要调整如何挑选输入模型的自变量输入的自变量多是有好处的，能够阅读全文

posted @ 2019-06-08 16:09 我的数据之路阅读(339) 评论(0) 推荐(0) 编辑

机器学习-线性回归补充-R^

摘要：线性回归算法在选自变量会遇到两个问题：一是去掉多重共线性干扰，二是选择最优自变量组合。线性回归步骤 1.选择自变量注意点去掉多重共线性干扰，选择最优自变量组合。这里需要理解决定系数：R^。它是理解选自变量两个问题的基础。 2.创建线线回归模型 3.分析模型 R^ 表示因变量波动中被模型拟合的百阅读全文

posted @ 2019-06-08 11:47 我的数据之路阅读(3531) 评论(0) 推荐(0) 编辑

机器学习-线性回归（基于R语言）

摘要：基本概念利用线性的方法，模拟因变量与一个或多个自变量之间的关系。自变量是模型输入值，因变量是模型基于自变量的输出值。因变量是自变量线性叠加和的结果。线性回归模型背后的逻辑——最小二乘法计算线性系数最小二乘法怎么理解？它的主要思想就是求解未知参数，使得理论值与观测值之差（即误差，或者说残差）阅读全文

posted @ 2019-06-08 10:51 我的数据之路阅读(1765) 评论(0) 推荐(0) 编辑

调参啊调参

公告