我的数据之路

2019年6月8日

摘要：线性回归算法在选自变量会遇到两个问题：一是去掉多重共线性干扰，二是选择最优自变量组合。线性回归步骤 1.选择自变量注意点去掉多重共线性干扰，选择最优自变量组合。这里需要理解决定系数：R^。它是理解选自变量两个问题的基础。 2.创建线线回归模型 3.分析模型 R^ 表示因变量波动中被模型拟合的百阅读全文

posted @ 2019-06-08 11:47 我的数据之路阅读(3600) 评论(0) 推荐(0)

机器学习-线性回归（基于R语言）

摘要：基本概念利用线性的方法，模拟因变量与一个或多个自变量之间的关系。自变量是模型输入值，因变量是模型基于自变量的输出值。因变量是自变量线性叠加和的结果。线性回归模型背后的逻辑——最小二乘法计算线性系数最小二乘法怎么理解？它的主要思想就是求解未知参数，使得理论值与观测值之差（即误差，或者说残差）阅读全文

posted @ 2019-06-08 10:51 我的数据之路阅读(1824) 评论(0) 推荐(0)

2019年6月7日

机器学习-决策树算法+代码实现（基于R语言）

摘要：分类树（决策树）是一种十分常用的分类方法。核心任务是把数据分类到可能的对应类别。他是一种监管学习，所谓监管学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。决策树的理解熵的概念对理解决策树很重要决策阅读全文

posted @ 2019-06-07 12:42 我的数据之路阅读(4047) 评论(0) 推荐(0)

数据分析的三种方法（统计分析、机器学习分析、图表分析）的区别与联系

摘要：这里主要从应用角度讲这三者之间的关系在数据分析工作全流程中，统计方法主要应用在数据探索、统一分析与建模阶段平均值、中位数等更好了解当前的数据，A/B测试检测两个数据差异是否显著等。 …… 监督学习的驱动力分析与无监督学习的分类分析阅读全文

posted @ 2019-06-07 02:48 我的数据之路阅读(1854) 评论(0) 推荐(0)

机器学习基础概念之监督学习与无监督学习

摘要：一句话明晰概念：不用编程制定机器做什么，机器有能力自己学习。三种最基础的机器学习算法：决策树、线性回归、K-means聚类。监督与无监督学习周志华通过敲西瓜案例有以下讲解：监督学习是在敲西瓜听声音判断好坏过程中有懂行的人告诉你这个瓜的好坏，给不同的声音贴上了好坏瓜的标签，慢慢学习声音特征之间阅读全文

posted @ 2019-06-07 02:11 我的数据之路阅读(414) 评论(0) 推荐(0)

2019年6月6日

R语言控制流

摘要：一般来说R语言是自上而下执行的，但是遇到特殊情况可能用到循环执行某些语句，这时候条件运算和循环就能派上用场了。阅读全文

posted @ 2019-06-06 00:47 我的数据之路阅读(392) 评论(0) 推荐(0)

2019年6月5日

R语言中的数据分析函数

摘要：数学类函数在求有缺失值的子集的最大值时候，需要先用na.re=TRUE去掉缺失值。求几个特定百分位数 round（x,n） n表示保留的小数点位数分布类函数 rnorm，密度高的数字，生成概率就高阅读全文

posted @ 2019-06-05 23:59 我的数据之路阅读(543) 评论(0) 推荐(0)

R语言子集

摘要：取子集方法 x[]：适用于所有r语言 x[[ ]]：适用于list或者data.frame中提取元素 x$：使用元素名做索引，提取list或者data.frame中的某个元素注意，取出的子集数据类型跟原来的类型一致 x[[ ]]，仅可以提取一个对象，返回对象并不和原list、data.frame数阅读全文

posted @ 2019-06-05 23:58 我的数据之路阅读(895) 评论(0) 推荐(0)

R语言ggplot2软件包

摘要：相比r语言自带软件包，ggplot2有以下特色图形语法的核心：统计图形是数据向几何对象属性的一个映射。阅读全文

posted @ 2019-06-05 23:56 我的数据之路阅读(1837) 评论(0) 推荐(0)

R语言数据类型与数据结构

摘要：一.数据类型 5种 1.character 字符 2.numeric 数值 3.integer 整数一般数字的存储会默认为数值类型，如果要强调是整数，需要在变量值后面加上 L。 x <- 5L class(x) 4.complex 复数 1+2i 5.logical 逻辑 TRUE&FALSE c 阅读全文

posted @ 2019-06-05 23:55 我的数据之路阅读(3576) 评论(0) 推荐(0)

调参啊调参

公告