博客园  :: 首页  :: 联系 :: 管理

随笔分类 -  R

摘要:工作和生活中存在大量的具有相关性的事件,当找到不同变量之间的关系,我们就会用到回归分析。回归分析(Regression Analysis):是用来确定2个或2个以上变量间关系的一种统计分析方法。 在回归分析中,变量有2类:因变量 和 自变量。 因变量:通常是指实际问题中所关心的指标,用Y表示。 自变 阅读全文

posted @ 2020-06-22 18:58 天戈朱 阅读(1264) 评论(0) 推荐(0) 编辑

摘要:##检查数据的维度 dim(iris) ##显示数据集的内部结构 str(iris) ##显示数据集的属性 attributes(iris) ##显示数据集中每个变量的分布情况 summary(iris) ##显示iris数据集列Species中各个值出现频次 table(iris$Species) 阅读全文

posted @ 2017-08-08 06:03 天戈朱 阅读(481) 评论(0) 推荐(0) 编辑

该文被密码保护。

posted @ 2017-05-15 21:20 天戈朱 阅读(3) 评论(0) 推荐(0) 编辑

摘要:这个包让你可以更快地完成数据集的数据处理工作。放弃选取行或列子集的传统方法,用这个包进行数据处理。用最少的代码,你可以做最多的事。相比使用data.frame,data.table可以帮助你减少运算时间。一个数据表格包含三部分,即DT[i, j, by]。你可以理解为我们告诉R用i来选出行的子集,并 阅读全文

posted @ 2017-04-28 08:27 天戈朱 阅读(320) 评论(0) 推荐(0) 编辑

摘要:tidy(整洁),Tidyr包是由Hadely Wickham创建,这个包提高了整理原始数据的效率,tidyr包的4个常用的函数及其用途如下: gather()——它把多列放在一起,然后转化为key:value对。这个函数会把宽格式的数据转化为长格式。它是reshape包中melt函数的一个替代 s 阅读全文

posted @ 2017-04-28 08:27 天戈朱 阅读(653) 评论(0) 推荐(0) 编辑

摘要:sqldf程序包是R语言中实用的数据管理辅助工具,但最新版本的包在处理中文时出现乱码,待解决 Usage: sqldf(x, stringsAsFactors = FALSE, row.names = FALSE...) row.names: 为True时,行名重命名不重新命名 需安装sqldf 包 阅读全文

posted @ 2017-04-27 08:47 天戈朱 阅读(455) 评论(0) 推荐(0) 编辑

摘要:dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口,本节学习dplyr包函数基本用法。dplyr()可使用%>%(链式操作),其功能是用于实现将一个函数的输出传递给下一个函数的第一个参 阅读全文

posted @ 2017-04-27 08:47 天戈朱 阅读(496) 评论(0) 推荐(0) 编辑

摘要:write.table() 数据导入导出最常用的方式是使用read.table()函数和write.table()处理CSV文件的导入导出,read.table()和write.table()可以处理包含行、列标签的数据框 Usage: write.table(x, file = "", appen 阅读全文

posted @ 2017-04-27 08:46 天戈朱 阅读(515) 评论(0) 推荐(0) 编辑

摘要:sample: 从整体中挑出部分样本数据函数 Usage: sample.int(n, size = n, replace = FALSE, prob = NULL) x:可以是R中任何​对象 size: 指定在向量中抽取元素的个数 replace:默认是F,表示每次​抽取后的数就不能在下一次被抽取 阅读全文

posted @ 2017-04-24 08:53 天戈朱 阅读(418) 评论(0) 推荐(0) 编辑

摘要:读取csv文件出现中文乱码方案,增加编码格式参数 read.csv(trainPath,header=TRUE,stringsAsFactors=TRUE,encoding = "UTF-8") 保存csv文件中出现乱码,编码格式参数 write.csv(outp, file = path, quo 阅读全文

posted @ 2017-04-18 07:52 天戈朱 阅读(11667) 评论(1) 推荐(1) 编辑

摘要:tm包是R语言中为文本挖掘提供综合性处理的package,进行操作前载入tm包,vignette命令可以让你得到相关的文档说明。使用默认安装的R平台是不带tm package的,在安装的过程中,它会依赖于NLP’,‘BH’ ,‘slam’包,所以最简单的方式就是采用在线安装。 在tm 中主要的管理文 阅读全文

posted @ 2017-04-09 12:06 天戈朱 阅读(1475) 评论(0) 推荐(0) 编辑

摘要:数据作为信息的载体,要分析数据中包含的主要信息,即要分析数据的主要特征(即数据的数字特征), 对于数据的数字特征, 包含数据的集中位置、分散程度和数据分布,常用统计项目如下: 集中趋势统计量: 均值(Mean)、中位数(Median)、众数(Mode)、百分位数 离散趋势统计量:标准差(sd)、方差 阅读全文

posted @ 2016-10-19 05:33 天戈朱 阅读(4640) 评论(0) 推荐(0) 编辑

摘要:目录: 数学函数 统计函数 应用示例 控制流 数学函数 ceiling(x): 大于等于 x 的最小整数, 如: ceiling(3.213) --> 4 floor(x): 小于等于 x 的最大整数,如: floor(3.6534) --> 3 trunc(x): 取x的整数部分, 如: trun 阅读全文

posted @ 2016-10-13 22:16 天戈朱 阅读(726) 评论(0) 推荐(0) 编辑

摘要:目录: 创建新变量 变量重编码 日期值 数据排序 数据集合并 数据子集 随机取样 创建新变量 算术运算函数:x%%y 【求余 x mod y, 5%%2的结果为1】, x%/%y 【整数除法,5% / %2 结果为2】, ^或 ** 求幂 如下示例数据,在对象中增加平均、合计变量(场景不大合适,主要 阅读全文

posted @ 2016-10-12 21:20 天戈朱 阅读(582) 评论(0) 推荐(0) 编辑

摘要:目录: 图形示例 图形参数 符号、线条 颜色 文本属性 尺寸与边界 自定义标题 自定义坐标轴 图例 文本标注 图形组合 图形示例 如下代码描述病人对两种药物五个剂量水平上的响应情况 > mydata <- data.frame(dose=numeric(0),drugA=numeric(0),dru 阅读全文

posted @ 2016-10-09 20:34 天戈朱 阅读(1056) 评论(2) 推荐(1) 编辑

摘要:目录: 文本输出 图形输出 数据输入 数据框输出 文本导入 Excel导入 文本输出 语法: sink(file = NULL, append = FALSE, type = c("output", "message"), split = FALSE) 示例代码: setwd("E:\\R") si 阅读全文

posted @ 2016-10-09 20:33 天戈朱 阅读(601) 评论(0) 推荐(0) 编辑

摘要:分析文本内容基本的步骤:提取文本中的词语 -> 统计词语频率 -> 词频属性可视化。词频:能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词云:让词语的频率属性可视化,更加直观清晰。文本下载地址(http://www.yuandn.com/booktxt/59797/#do 阅读全文

posted @ 2016-08-18 22:51 天戈朱 阅读(1543) 评论(0) 推荐(0) 编辑

摘要:第四章通过REmap包完成基于map分布图示例,前面提到REmap基于Echart2.0, 一方面在移动终端适应效果差,另一方面REmap提供的热力图仅支持全国及省市大版块map,基于上面的原因,参考 http://echarts.baidu.com/examples.html#chart-type 阅读全文

posted @ 2016-08-18 22:43 天戈朱 阅读(4114) 评论(0) 推荐(0) 编辑

摘要:工作笔记记录,会持续更新.... 目录: apply tapply lapply sapply merge substr、substring、strsplit、unlist、paste、paste0、nchar table apply函数: apply:apply的中文意思是应用,这个函数的意思是通 阅读全文

posted @ 2016-08-17 08:52 天戈朱 阅读(863) 评论(0) 推荐(0) 编辑

摘要:在我的实际工作中,数据来源一方面是关系型数据库MS SqlServer, 别一方面是HBase。本节主要介绍通过RODBC访问MS SqlServer 安装配置,参见资料(https://msdn.microsoft.com/en-us/library/hh568454(v=sql.110).asp 阅读全文

posted @ 2016-08-17 06:52 天戈朱 阅读(2946) 评论(0) 推荐(1) 编辑