摘要: 线性回归算法在选自变量会遇到两个问题:一是去掉多重共线性干扰,二是选择最优自变量组合。 线性回归步骤 1.选择自变量 注意点 去掉多重共线性干扰,选择最优自变量组合。这里需要理解决定系数:R^。它是理解选自变量两个问题的基础。 2.创建线线回归模型 3.分析模型 R^ 表示因变量波动中被模型拟合的百 阅读全文
posted @ 2019-06-08 11:47 我的数据之路 阅读(3531) 评论(0) 推荐(0) 编辑
摘要: 基本概念 利用线性的方法,模拟因变量与一个或多个自变量之间的关系。自变量是模型输入值,因变量是模型基于自变量的输出值。 因变量是自变量线性叠加和的结果。 线性回归模型背后的逻辑——最小二乘法计算线性系数 最小二乘法怎么理解? 它的主要思想就是求解未知参数,使得理论值与观测值之差(即误差,或者说残差) 阅读全文
posted @ 2019-06-08 10:51 我的数据之路 阅读(1765) 评论(0) 推荐(0) 编辑
摘要: 分类树(决策树)是一种十分常用的分类方法。核心任务是把数据分类到可能的对应类别。 他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。 决策树的理解 熵的概念对理解决策树很重要 决策 阅读全文
posted @ 2019-06-07 12:42 我的数据之路 阅读(3891) 评论(0) 推荐(0) 编辑
摘要: 这里主要从应用角度讲这三者之间的关系 在数据分析工作全流程中,统计方法主要应用在数据探索、统一分析与建模阶段 平均值、中位数等更好了解当前的数据,A/B测试检测两个数据差异是否显著等。 …… 监督学习的驱动力分析与无监督学习的分类分析 阅读全文
posted @ 2019-06-07 02:48 我的数据之路 阅读(1587) 评论(0) 推荐(0) 编辑
摘要: 一句话明晰概念:不用编程制定机器做什么,机器有能力自己学习。 三种最基础的机器学习算法:决策树、线性回归、K-means聚类。 监督与无监督学习 周志华通过敲西瓜案例有以下讲解: 监督学习是在敲西瓜听声音判断好坏过程中有懂行的人告诉你这个瓜的好坏,给不同的声音贴上了好坏瓜的标签,慢慢学习声音特征之间 阅读全文
posted @ 2019-06-07 02:11 我的数据之路 阅读(374) 评论(0) 推荐(0) 编辑
摘要: 一般来说R语言是自上而下执行的,但是遇到特殊情况可能用到循环执行某些语句,这时候条件运算和循环就能派上用场了。 阅读全文
posted @ 2019-06-06 00:47 我的数据之路 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 数学类函数 在求有缺失值的子集的最大值时候,需要先用na.re=TRUE去掉缺失值。 求几个特定百分位数 round(x,n) n表示保留的小数点位数 分布类函数 rnorm,密度高的数字,生成概率就高 阅读全文
posted @ 2019-06-05 23:59 我的数据之路 阅读(536) 评论(0) 推荐(0) 编辑
摘要: 取子集方法 x[]:适用于所有r语言 x[[ ]]:适用于list或者data.frame中提取元素 x$:使用元素名做索引,提取list或者data.frame中的某个元素 注意,取出的子集数据类型跟原来的类型一致 x[[ ]],仅可以提取一个对象,返回对象并不和原list、data.frame数 阅读全文
posted @ 2019-06-05 23:58 我的数据之路 阅读(863) 评论(0) 推荐(0) 编辑
摘要: 相比r语言自带软件包,ggplot2有以下特色 图形语法的核心:统计图形是数据向几何对象属性的一个映射。 阅读全文
posted @ 2019-06-05 23:56 我的数据之路 阅读(1800) 评论(0) 推荐(0) 编辑
摘要: 一.数据类型 5种 1.character 字符 2.numeric 数值 3.integer 整数 一般数字的存储会默认为数值类型,如果要强调是整数,需要在变量值后面加上 L。 x <- 5L class(x) 4.complex 复数 1+2i 5.logical 逻辑 TRUE&FALSE c 阅读全文
posted @ 2019-06-05 23:55 我的数据之路 阅读(3469) 评论(0) 推荐(0) 编辑