摘要: R语言封装函数 原帖见豆瓣:https://www.douban.com/note/279077707/ 一个完整的R函数,需要包括函数名称,函数声明,函数参数以及函数体几部分。 1. 函数名称,即要编写的函数名称,这一名称就作为将来调用R函数的依据。2. 函数声明,函数名称 <- function 阅读全文
posted @ 2019-07-15 23:21 我的数据之路 阅读(4063) 评论(0) 推荐(0) 编辑
摘要: 案例 ggplot(head(age_data,10),aes(x=reorder(Country,age_median),y=age_median))+ geom_bar(aes(fill=Country),stat='identity')+ geom_text(aes(label=age_med 阅读全文
posted @ 2019-07-15 12:23 我的数据之路 阅读(1366) 评论(0) 推荐(0) 编辑
摘要: 在数据处理中,经常会遇到要对判断结果做处理的情况。if函数是经常遇到的。 ifelse(cond,statment1,statment2) 如果cond成立,执行statment1,否则执行statment2,可以对数据做递归循环。 示例: ifelse()与if(){}else(){}的区别: i 阅读全文
posted @ 2019-07-15 10:48 我的数据之路 阅读(14816) 评论(0) 推荐(1) 编辑
摘要: R语言处理大规模数据速度不算快,通过安装其他包比如data.table可以提升读取处理速度。 案例,分别用read.csv和data.table包的fread函数读取一个1.67万行、230列的表格数据。 参考资料: R语言data.table速查(博客园-Little_Rookie):https: 阅读全文
posted @ 2019-07-15 10:08 我的数据之路 阅读(10604) 评论(0) 推荐(0) 编辑
摘要: /*SELECT `产品号码`, `产品名称`, `产品单价` FROM `产品信息` WHERE `产品单价`>( SELECT AVG(产品单价) FROM `产品信息`);*/ /* SELECT `产品号码`, `产品名称`, `产品单价`, (SELECT AVG(产品单价) FROM ` 阅读全文
posted @ 2019-07-14 00:34 我的数据之路 阅读(215) 评论(0) 推荐(0) 编辑
摘要: https://sqlzoo.net 8. 美國、印度和中國(USA, India, China)是人口又大,同時面積又大的國家。排除這些國家。 顯示以人口或面積為大國的國家,但不能同時兩者。顯示國家名稱,人口和面積。 (成為大國的兩種方式:如果它有3百萬平方公里以上的面積,或擁有250百萬(2.5 阅读全文
posted @ 2019-07-12 01:54 我的数据之路 阅读(3075) 评论(1) 推荐(1) 编辑
摘要: hr员工数据分析项目实战 (数据已脱敏) 背景说明 某公司最近公司发生多起重要员工意外离职、部分员工工作缺乏积极性等问题,受hr部门委托,开展数据分析工作。 经与hr部门沟通,确定以下需求: 制定数据仪表盘实时监控人员变动情况(比如能预知员工离职节点),制作员工画像。 原始数据说明: 共两个sql数 阅读全文
posted @ 2019-07-04 10:47 我的数据之路 阅读(5044) 评论(0) 推荐(0) 编辑
摘要: 虽然现在数据库空间越来越大,但处理数据时候还是有要删除的时候,以下整理了一些最常用的删除语句。 分成两种 一个是删除指定数据,另一个删除所有数据。 一、删除指定数据 DELETE FROM 表名 WHERE 列名=值; 如果DELETE FROM 表名 后面不加限制,将会删除所有数据,但表结构还在, 阅读全文
posted @ 2019-06-12 11:17 我的数据之路 阅读(23181) 评论(0) 推荐(1) 编辑
摘要: K-means聚类 将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分、产品类别划分等)中。 重要概念:质心 K-means聚类要求的变量是数值变量,方便计算距离。 算法实现 R语言实现 k-means算法是将数值转换为距离,然后测量距离远近进行聚类的。不归一化的会使得距离非常远。 阅读全文
posted @ 2019-06-08 17:50 我的数据之路 阅读(6925) 评论(0) 推荐(0) 编辑
摘要: 线性回归分析过程中可能会遇到的问题 选定自变量时候要注意:去除多重共线性干扰 什么是多重共线性干扰? 强相关变量 多重共线性 避免将两个强相关变量输入到一个模型中,解决办法是只保留一个。 消除多重共线性的方法: 如果GVIF>10 则需要调整 如何挑选输入模型的自变量 输入的自变量多是有好处的,能够 阅读全文
posted @ 2019-06-08 16:09 我的数据之路 阅读(339) 评论(0) 推荐(0) 编辑