摘要: RHadoop是由Revolution Analytics发起的一个开源项目,它可以将统计语言R与Hadoop结合起来。目前该项目包括三个R packages,分别为支持用R来编写MapReduce应用的rmr、用于R语言访问HDFS的rhdfs以及用于R语言访问HBASE的rhbase。下载网址为 阅读全文
posted @ 2016-10-25 21:45 马家寨香椿 阅读(503) 评论(0) 推荐(0) 编辑
摘要: 介绍:1. 文本文件的读写 2. 字符统计和字符翻译3. 字符串连接4. 字符串拆分5. 字符串查询6. 字符串替换7. 字符串提取 说明: 普通文本文件不同于我们平时接触到的表格式文本文件,这里的文本文件是纯文本文件,里面包含的大部分都是字符串;而表格式文本文件大多是行列比较整齐的数据文件,读取这 阅读全文
posted @ 2016-10-25 21:43 马家寨香椿 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 在我的实际工作中,数据来源一方面是关系型数据库MS SqlServer, 别一方面是HBase。本节主要介绍通过RODBC访问MS SqlServer 安装配置,参见资料(https://msdn.microsoft.com/en-us/library/hh568454(v=sql.110).asp 阅读全文
posted @ 2016-10-25 21:41 马家寨香椿 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 分析文本内容基本的步骤:提取文本中的词语 -> 统计词语频率 -> 词频属性可视化。词频:能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词云:让词语的频率属性可视化,更加直观清晰。文本下载地址(http://www.yuandn.com/booktxt/59797/#do 阅读全文
posted @ 2016-10-25 21:35 马家寨香椿 阅读(509) 评论(0) 推荐(0) 编辑
摘要: 在配置hbase集群将 hdfs 挂接到其它镜像盘时,有不少困惑的地方,结合以前的资料再次学习; 大数据底层技术的三大基石起源于Google在2006年之前的三篇论文GFS、Map-Reduce、 Bigtable,其中GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生, 阅读全文
posted @ 2016-10-25 21:31 马家寨香椿 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 包(package)是多个函数的集合,常作为分享代码的基本单元,代码封装成包可以方便其他用户使用。越来越多的R包正在由世界上不同的人所创建并分发,这些分发的R包,可以从CRAN 或 github 上获取,由于向 CRAN 提交包审核非常严格,有些开发者并没有将自己开发的R包提至CRAN的意向,通过 阅读全文
posted @ 2016-10-25 21:29 马家寨香椿 阅读(338) 评论(0) 推荐(0) 编辑
摘要: R 是一门拥有统计分析及作图功能的免费软件,主要用于数学建模、统计计算、数据处理、可视化等方向。据 IEEE Spectrum发布的2016年编程语言前10位排名来看,R语言由2015年排名第6位上升级2016年的第5位。目前在CRAN 上发布的算法包已经超过8000+多个。R体系涉及到高等数据、概 阅读全文
posted @ 2016-10-25 21:28 马家寨香椿 阅读(1310) 评论(0) 推荐(0) 编辑