摘要: K-means聚类 将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分、产品类别划分等)中。 重要概念:质心 K-means聚类要求的变量是数值变量,方便计算距离。 算法实现 R语言实现 k-means算法是将数值转换为距离,然后测量距离远近进行聚类的。不归一化的会使得距离非常远。 阅读全文
posted @ 2019-06-08 17:50 我的数据之路 阅读(6864) 评论(0) 推荐(0) 编辑
摘要: 线性回归分析过程中可能会遇到的问题 选定自变量时候要注意:去除多重共线性干扰 什么是多重共线性干扰? 强相关变量 多重共线性 避免将两个强相关变量输入到一个模型中,解决办法是只保留一个。 消除多重共线性的方法: 如果GVIF>10 则需要调整 如何挑选输入模型的自变量 输入的自变量多是有好处的,能够 阅读全文
posted @ 2019-06-08 16:09 我的数据之路 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 线性回归算法在选自变量会遇到两个问题:一是去掉多重共线性干扰,二是选择最优自变量组合。 线性回归步骤 1.选择自变量 注意点 去掉多重共线性干扰,选择最优自变量组合。这里需要理解决定系数:R^。它是理解选自变量两个问题的基础。 2.创建线线回归模型 3.分析模型 R^ 表示因变量波动中被模型拟合的百 阅读全文
posted @ 2019-06-08 11:47 我的数据之路 阅读(3460) 评论(0) 推荐(0) 编辑
摘要: 基本概念 利用线性的方法,模拟因变量与一个或多个自变量之间的关系。自变量是模型输入值,因变量是模型基于自变量的输出值。 因变量是自变量线性叠加和的结果。 线性回归模型背后的逻辑——最小二乘法计算线性系数 最小二乘法怎么理解? 它的主要思想就是求解未知参数,使得理论值与观测值之差(即误差,或者说残差) 阅读全文
posted @ 2019-06-08 10:51 我的数据之路 阅读(1752) 评论(0) 推荐(0) 编辑