摘要: R语言里面一个比较重要的绘图包——ggplot2,是由Hadley Wickham于2005年创建,于2012年四月进行了重大更新,作者目前的工作是重写代码,简化语法,方便用户开发和使用。ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离,是按图层作图,有利于结构化思维, 阅读全文
posted @ 2017-03-06 12:04 holy_black_cat 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 用R作如下的各国Gini系数的Polar barChart: 作上图的R代码为: library(ggplot2) GiniData<- read.csv('IncomeInequality.csv',head=T) Gini<- ggplot(GiniData, aes(x=paste(GiniI 阅读全文
posted @ 2017-03-06 11:53 holy_black_cat 阅读(791) 评论(0) 推荐(0) 编辑
摘要: R语言绘制空间热力图 先上图 R语言的REmap包拥有非常强大的空间热力图以及空间迁移图功能,里面内置了国内外诸多城市坐标数据,使用起来方便快捷。 开始 首先安装相关包 install_packages("devtools") install_packages("REmap") library(de 阅读全文
posted @ 2017-03-06 11:48 holy_black_cat 阅读(3568) 评论(0) 推荐(0) 编辑
摘要: 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在 阅读全文
posted @ 2017-03-06 11:45 holy_black_cat 阅读(464) 评论(0) 推荐(0) 编辑
摘要: 什么是DataFrame 引用 r-tutor上的定义: DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。 没错,DataFrame就是类似于Excel表格和MySQL数据库一样是一个结构化的数据体。而这种结构化的数据体是当代数据流编程中的中流砥柱,几乎 阅读全文
posted @ 2017-03-06 11:45 holy_black_cat 阅读(859) 评论(0) 推荐(0) 编辑
摘要: Usage Arguments Description The bar geom is used to produce 1d area plots: bar charts for categorical x, and histograms for continuous y. stat_bin exp 阅读全文
posted @ 2017-03-06 11:44 holy_black_cat 阅读(297) 评论(0) 推荐(0) 编辑
摘要: Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就 阅读全文
posted @ 2017-03-06 11:43 holy_black_cat 阅读(4371) 评论(0) 推荐(0) 编辑
摘要: 最近我一直尝试利用R绘制地图,我从网上找到了上百种不同的实现方法,然而其中却没有适用于我的数据的方法。最终,我从以下几个博客【1】中找到了灵感。我在整合这些资源的基础上,通过不断的试验和修正得到了一个较好地解决方案。这个方案就是本篇博文的主要内容。 本篇博文中展示了如何利用 ggplot2 来绘制分 阅读全文
posted @ 2017-03-06 11:42 holy_black_cat 阅读(8746) 评论(0) 推荐(0) 编辑
摘要: R语言是一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。这里的统计计算可以是数据分析、建模或是数据挖掘等,通过无数大牛提供的软件包,可以帮我们轻松实现算法的实施。 一些读者觉得R语言零碎的东西太多了,无法记住那么多函数和功能,于是就问R语言有没有一种类似于SAS之EM或S 阅读全文
posted @ 2017-03-06 11:40 holy_black_cat 阅读(2890) 评论(0) 推荐(0) 编辑
摘要: 一、通过重新构建数据进行整形 数据整形最直接的思路就把数据全部向量化,然后按要求用向量构建其他类型的数据。这样是不是会产生大量的中间变量、占用大量内存?没错。R语言的任何函数(包括赋值)操作都会有同样的问题,因为R函数的参数传递方式是传值不传址,变量不可能原地址修改后再放回原地址。 矩阵和多维数组的 阅读全文
posted @ 2017-03-06 11:39 holy_black_cat 阅读(1218) 评论(0) 推荐(0) 编辑