摘要: 数据解析 XML是一种可扩展标记语言,它被设计用来传输和存储数据。XML是各种应用程序之间进行数据传输的最常用的工具。它与Access,Oracle和SQL Server等数据库不同,数据库提供了更强有力的数据存储和分析能力,例如:数据索引、排序、查找、相关一致性等,它仅仅是存储数据。事实上它与其他 阅读全文
posted @ 2016-10-27 20:33 马家寨香椿 阅读(1541) 评论(0) 推荐(0) 编辑
摘要: #爬取电影票房信息 library(stringr) library(XML) library(maps) #htmlParse()用来interpreting HTML #创建一个object movie_parsed<-htmlParse("http://58921.com/boxoffice/ 阅读全文
posted @ 2016-10-27 20:26 马家寨香椿 阅读(445) 评论(0) 推荐(0) 编辑
摘要: 在文章(http://www.cnblogs.com/homewch/p/5749850.html)中有提到R可以自定义启动环境,需要修改R安装文件中的ect文件夹下的配置文件Rprofile.site即可: Rprofile.site文件里,设置的内容包括默认编辑器,CRAN镜像选取,自动加载包等 阅读全文
posted @ 2016-10-27 20:17 马家寨香椿 阅读(1128) 评论(0) 推荐(0) 编辑
摘要: ASA的美国总统竞选 在这个大选之年,美国统计协会(ASA)将学生竞赛和总统选举放在一起,将学生预测谁是2016年总统大选的赢家准确的百分比作为比赛点。详情见: http://thisisstatistics.org/electionprediction2016/ 获取数据 互联网上有很多公开的民调 阅读全文
posted @ 2016-10-27 20:12 马家寨香椿 阅读(306) 评论(0) 推荐(0) 编辑
摘要: RHadoop是由Revolution Analytics发起的一个开源项目,它可以将统计语言R与Hadoop结合起来。目前该项目包括三个R packages,分别为支持用R来编写MapReduce应用的rmr、用于R语言访问HDFS的rhdfs以及用于R语言访问HBASE的rhbase。下载网址为 阅读全文
posted @ 2016-10-25 21:45 马家寨香椿 阅读(503) 评论(0) 推荐(0) 编辑
摘要: 介绍:1. 文本文件的读写 2. 字符统计和字符翻译3. 字符串连接4. 字符串拆分5. 字符串查询6. 字符串替换7. 字符串提取 说明: 普通文本文件不同于我们平时接触到的表格式文本文件,这里的文本文件是纯文本文件,里面包含的大部分都是字符串;而表格式文本文件大多是行列比较整齐的数据文件,读取这 阅读全文
posted @ 2016-10-25 21:43 马家寨香椿 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 在我的实际工作中,数据来源一方面是关系型数据库MS SqlServer, 别一方面是HBase。本节主要介绍通过RODBC访问MS SqlServer 安装配置,参见资料(https://msdn.microsoft.com/en-us/library/hh568454(v=sql.110).asp 阅读全文
posted @ 2016-10-25 21:41 马家寨香椿 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 分析文本内容基本的步骤:提取文本中的词语 -> 统计词语频率 -> 词频属性可视化。词频:能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词云:让词语的频率属性可视化,更加直观清晰。文本下载地址(http://www.yuandn.com/booktxt/59797/#do 阅读全文
posted @ 2016-10-25 21:35 马家寨香椿 阅读(509) 评论(0) 推荐(0) 编辑
摘要: 在配置hbase集群将 hdfs 挂接到其它镜像盘时,有不少困惑的地方,结合以前的资料再次学习; 大数据底层技术的三大基石起源于Google在2006年之前的三篇论文GFS、Map-Reduce、 Bigtable,其中GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生, 阅读全文
posted @ 2016-10-25 21:31 马家寨香椿 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 包(package)是多个函数的集合,常作为分享代码的基本单元,代码封装成包可以方便其他用户使用。越来越多的R包正在由世界上不同的人所创建并分发,这些分发的R包,可以从CRAN 或 github 上获取,由于向 CRAN 提交包审核非常严格,有些开发者并没有将自己开发的R包提至CRAN的意向,通过 阅读全文
posted @ 2016-10-25 21:29 马家寨香椿 阅读(338) 评论(0) 推荐(0) 编辑