摘要: R语言系列:生成数据 (2014-05-04 17:41:57) 转载▼ R语言系列:生成数据 转载▼ 标签: r语言 教育 分类: 生物信息 r语言 教育 生成规则数据1、使用“:“,如x=1:10,注意该方法既可以递增也可以递减,如y=10:12、seq,有两种用法:①seq(起点,终点,步长) 阅读全文
posted @ 2017-04-05 18:38 holy_black_cat 阅读(1170) 评论(0) 推荐(0) 编辑
摘要: (转载)SPARKR,对RDD操作的介绍 原以为,用sparkR不能做map操作, 搜了搜发现可以。 lapply等同于map, 但是不能操作spark RDD. spark2.0以后, sparkR增加了 dapply, dapplycollect 可以操作spark RDD. 原文地址: htt 阅读全文
posted @ 2017-04-05 14:23 holy_black_cat 阅读(1997) 评论(0) 推荐(0) 编辑
摘要: 简单说下安装过程,一般不会有问题,重点是RMySQL的使用方式。 系统环境说明 Redhat系统:Linux 460-42.6.32-431.29.2.el6.x86_64 系统编码:LANG=zh_CN.UTF-8(中文UTF-8格式) MySQL版本:mysql Ver 14.14 Distri 阅读全文
posted @ 2017-04-05 13:59 holy_black_cat 阅读(448) 评论(0) 推荐(0) 编辑
摘要: sparkR介绍及安装 SparkR是AMPLab发布的一个R开发包,为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集(RDD)的API,用户可以在集群上通过R shell交互性的运行job。例如,我们可以在HDFS上读取或写入文件,也可以使用 lapply 阅读全文
posted @ 2017-04-05 13:58 holy_black_cat 阅读(508) 评论(0) 推荐(0) 编辑
摘要: 最近在看决策树的模型,其中涉及到信息熵的计算,这里东西是由信号处理中来的,理论部分我就不再重复前人的东西了,下面给出两个简单的公式: 当然学习过信号与系统的童鞋一定觉得这不是香农提出的东西吗?O(∩_∩)O~没错,就是这个东西,只不过我们用在了机器学习上,好了下面就看代码吧,这些代码也很简单,我们知 阅读全文
posted @ 2017-04-05 13:57 holy_black_cat 阅读(4713) 评论(0) 推荐(0) 编辑
摘要: SparkR(R on Spark)编程指南 Spark 2015-06-09 28155 1评论 下载为PDF 为什么不允许复制 关注iteblog_hadoop公众号,并在这里评论区留言并且留言点赞数排名前5名的粉丝,各免费赠送一本《大数据时代的算法:机器学习、人工智能及其典型实例》,活动截止至 阅读全文
posted @ 2017-04-05 13:55 holy_black_cat 阅读(330) 评论(0) 推荐(0) 编辑
摘要: 对于初学者来说,R语言中的factor有些难以理解。如果直译factor为“因子”,使得其更加难以理解。我倾向于不要翻译,就称其为factor,然后从几个例子中理解: [html] view plain copy <span style="font-size:12px;">data <- c(1,2 阅读全文
posted @ 2017-04-05 13:53 holy_black_cat 阅读(1834) 评论(0) 推荐(1) 编辑
摘要: 在介绍熵之前,先从另一个概念说起:信息量 世界杯决赛的两支球队中,哪支球队获得了冠军?在对球队实力没有任何了解的情况下,每支球队夺冠的概率都是1/2,所以谁获得冠军这条信息的信息量是 - log2 1/2 = 1 bit。如果信息是四强中的球队谁获得了冠军,它的信息量是 - log2 1/4 = 2 阅读全文
posted @ 2017-04-05 13:50 holy_black_cat 阅读(5050) 评论(0) 推荐(0) 编辑
摘要: 1、取出当前日期 Sys.Date() [1] "2014-10-29" date() #注意:这种方法返回的是字符串类型 [1] "Wed Oct 29 20:36:07 2014" 2、在R中日期实际是double类型,是从1970年1月1日以来的天数 typeof(Sys.Date()) [1 阅读全文
posted @ 2017-04-05 13:50 holy_black_cat 阅读(7318) 评论(0) 推荐(0) 编辑
摘要: 引言:我们维护hadoop系统的时候,必不可少需要对HDFS分布式文件系统做操作,例如拷贝一个文件/目录,查看HDFS文件系统目录下的内容,删除HDFS文件系统中的内容(文件/目录),还有HDFS管理信息,单独启动停止 namenode datanode jobtracker tasktracker 阅读全文
posted @ 2017-04-05 13:50 holy_black_cat 阅读(821) 评论(0) 推荐(0) 编辑
摘要: 用R写代码时,打字水平不高,有时候不知道乱按了一些键(现在我还不知道哪个键),光标就变成了加粗的竖直线,又改不回去。这种情况下我们可以用options函数进行光标设置,例如:options(prompt="|") |options(prompt=">") >options(prompt="|") | 阅读全文
posted @ 2017-04-05 13:45 holy_black_cat 阅读(459) 评论(0) 推荐(0) 编辑
摘要: 一、apply函数(对一个数组按行或者按列进行计算): 使用格式为:apply(X, MARGIN, FUN, ...) 其中X为一个数组;MARGIN为一个向量(表示要将函数FUN应用到X的行还是列),若为1表示取行,为2表示取列,为c(1,2)表示行、列都计算。apply()函数的处理对象是矩阵 阅读全文
posted @ 2017-04-05 13:44 holy_black_cat 阅读(1951) 评论(0) 推荐(0) 编辑
摘要: 用source函数代替繁冗的R语言打包过程 经过初级的学习和使用R语言之后我们渐渐的开始动手写自己的R语言小程序,这些小程序因为和自己的工作非常契合而变得通用性不是那么强。因此,要让它们成为一个独立的软件包而被杂志接受或者让更多的人使用似乎欠缺点火后。但是却在我们的日常工作经常要使用到这些函数代码。 阅读全文
posted @ 2017-04-05 13:44 holy_black_cat 阅读(395) 评论(0) 推荐(0) 编辑
摘要: 突然有个想法,R只能处理百万级别的数据,如果R能运行在Spark上多好!搜了下发现13年SparkR这个项目就启动了,感谢美帝! 1.你肯定得先装个spark吧。看这:Spark本地模式与Spark Standalone伪分布模式 2.你肯定得会R吧。看这:R语言入门 3.启动SparkR就可以了 阅读全文
posted @ 2017-04-05 13:38 holy_black_cat 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 数据选取与简单操作: 一、数据合并 1、merge()函数 最常用merge()函数,但是这个函数使用时候这两种情况需要注意: 1、merge(a,b),纯粹地把两个数据集合在一起,没有沟通a、b数据集的by,这样出现的数据很多,相当于a*b条数据; 2、merge函数是匹配到a,b数据集的并,都有 阅读全文
posted @ 2017-04-05 13:37 holy_black_cat 阅读(3525) 评论(0) 推荐(0) 编辑
摘要: 1 R的下载、安转 R有很多的版本,支持目前主流的操作系统MAC、Linux和WINDOWS系列。因为我个人是在WINDOWS下用R的,所以在这里将只介绍WINDOWS下R的下载&安装。 下载R: 你可以从世界各地很多网站上下载到R,官方的中国下载点是: http://www.lmbe.seu.ed 阅读全文
posted @ 2017-04-05 13:32 holy_black_cat 阅读(3166) 评论(0) 推荐(0) 编辑
摘要: 数据库是极其重要的R语言数据导入源数据之地,读入包有sqldf、RODBC等。跟SQL server相连有RODBC,跟MySQL链接的有RMySQL。但是在R里面,回传文本会出现截断的情况,这一情况可把我弄得有点手足无措。 一、数据库读入——RODBC包 CRAN 里面的包 RODBC 提供了 O 阅读全文
posted @ 2017-04-05 13:30 holy_black_cat 阅读(6888) 评论(0) 推荐(0) 编辑
摘要: 笔者寄语:小规模的读取数据的方法较为简单并且多样,但是,批量读取目前看到有以下几种方法:xlsx包、RODBC包、批量转化成csv后读入。 R语言中还有一些其他较为普遍的读入,比如代码包,R文件,工作空间等。 source #读取R代码dget #读取R文件load #读取工作空间 ———————— 阅读全文
posted @ 2017-04-05 13:29 holy_black_cat 阅读(10178) 评论(0) 推荐(0) 编辑
摘要: 版权声明:本文为博主原创文章,未经博主允许不得转载。 版权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 目录(?)[+] R语言连接数据库常用的方法有2种: 1、使用R数据库接口 连接MySQL,使用RMySQL包,使用前RMySQL包要先安装。 library(RMySQL) 阅读全文
posted @ 2017-04-05 13:28 holy_black_cat 阅读(10969) 评论(0) 推荐(0) 编辑
摘要: R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。 要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数 阅读全文
posted @ 2017-04-05 13:26 holy_black_cat 阅读(411) 评论(0) 推荐(0) 编辑