会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
阿蛮的杜鹃
博客园
|
首页
|
新随笔
|
新文章
|
联系
|
订阅
|
管理
2017年6月7日
用R爬虫+词频统计+数据可视化
摘要: 这篇文章我们将使用爬虫来进行简单静态页面爬取,然后进行文本分词,再进行可视化分析。主要用到以下三个包: rvest 爬取网页 jiebaR 用于分词,词频统计 wordcloud2 用于文本分词 如果没有安装以上几个包,使用命令:install.packages("...")来安装。 1.首先我们进
阅读全文
posted @ 2017-06-07 10:35 阿蛮的杜鹃
阅读(5858)
评论(0)
推荐(0)
编辑
2017年5月26日
R数据可视化--ggplot2定位之坐标系详解
摘要: 坐标系是将两种位置标度结合在一起组成的2维定位系统。ggplot2包含了6种不同的坐标系: cartesian equal flip trans map polar 笛卡尔坐标系 同尺度笛卡尔坐标系 翻转的笛卡尔坐标系 变换的笛卡尔坐标系 地图射影 极坐标系 坐标系主要有两大功能: 将2个位置图形属
阅读全文
posted @ 2017-05-26 16:03 阿蛮的杜鹃
阅读(3583)
评论(0)
推荐(0)
编辑
2017年5月22日
R数据可视化--ggplot2定位之分面
摘要: 分面也就是切割数据生成一系列小联号图,每个小图表示不同的数据子集。本篇将讨论如何较好的微调分面,特别是与位置标度相近的方法。 在qplot中可以选择分面系统。2维分面使用face_grid,1维分面使用face_wrap。 分面通常会占用大量空间,因此本篇使用mpg数据集的子集来进行展示。 1.网格
阅读全文
posted @ 2017-05-22 10:19 阿蛮的杜鹃
阅读(3314)
评论(0)
推荐(0)
编辑
2017年5月4日
R数据可视化----ggplot2之标度、坐标轴和图例详解
摘要: 标度控制着数据到图形属性的映射,当有需要时,ggplot2会自动添加一个默认的标度。我们确实可以在不了解标度运行原理的情况下画出许多图形,但理解标度并学会如何操纵它们则将赋予我们对图形更强的控制能力。 每一种图形属性都拥有一个默认的标度,此标度将在我们每次使用这个图形属性时被自动添加到图形中,这些标
阅读全文
posted @ 2017-05-04 17:35 阿蛮的杜鹃
阅读(64544)
评论(0)
推荐(1)
编辑
2017年4月24日
R数据分析----rattle Exploring Data
摘要: 作为数据分析者,我们需要熟悉数据的意义和分布,甚至在建立模型之前,我们就可以通过一定的技术手段发现数据中存在额有意义的信息。通过探索数据(包括数据的最大最小值,平均值,以及分布规律),我们可以更好的理解数据。通过探索数据,我们可以处理数据中存在的一些问题,比如缺失值、噪声、错误的数据和偏差分布的数据
阅读全文
posted @ 2017-04-24 22:01 阿蛮的杜鹃
阅读(1194)
评论(0)
推荐(0)
编辑
2017年4月23日
R数据分析-------ggplot2工具箱二
摘要: 本篇主要分为四部分: 揭示不确定性 统计摘要 添加图形注解 含权数据 1.揭示不确定性 关于不确定的信息,怎么展示很重要,在ggplot2中共有四类几何对象可以用于这项工作,具体使用取决于x的值是离散型还是连续型的。这些几何对象列于下表中: geom_errorbar geom_linerange
阅读全文
posted @ 2017-04-23 23:03 阿蛮的杜鹃
阅读(949)
评论(0)
推荐(0)
编辑
2017年4月21日
R数据分析之AdaBoost算法
摘要: Rattle实现AdaBoost算法 Boosting算法是简单有效、易使用的建模方法。AdaBoost(自适应提升算法)通常被称作世界上现成的最好分类器。 Boosting算法使用其他的弱学习算法建立多个模型,对数据集中对结果影响较大的对象增加权重,一系列的模型被创建,然后调整那些影响分类的模型的
阅读全文
posted @ 2017-04-21 18:37 阿蛮的杜鹃
阅读(2481)
评论(0)
推荐(0)
编辑
2017年4月19日
R数据可视化第三弹---ggplot2和REmap包绘制地图
摘要: 绘制地图 1.ggplot2提供了一些工具,让使用maps包绘制的地图与其他ggplot2图形的结合变得十分方便。关于中国地图的绘制可以参考:http://cos.name/2009/07/drawing-china-map-using-r/ 法国 意大利 新西兰 美国(郡) 美国(州) 美国(边界
阅读全文
posted @ 2017-04-19 17:03 阿蛮的杜鹃
阅读(11156)
评论(1)
推荐(0)
编辑
2017年4月17日
R数据可视化第二弹---ggplot2工具箱
摘要: ggplot2工具箱 ggplot2的图层化架构让我们以一种结构化的方法来设计和构建图形,这里每一小节解决一个特定的作图问题。 1.基本图形类型 geom_area()用于绘制面积图 geom_bar(stat="identity")绘制条形图,我们需要指定stat=“identity”,因为默认的
阅读全文
posted @ 2017-04-17 23:03 阿蛮的杜鹃
阅读(851)
评论(0)
推荐(0)
编辑
R数据可视化第一弹之qplot()
摘要: ggplot2之快速作图qplot() qplot()的意思是快速作图,利用它可以很方便的创建各种复杂的图形,其他系统需要好几行代码才能解决的问题,用qplot只需要一行就能完成。 本篇主要介绍: qplot()的基本用法 如何将变量映射到图形属性上(如大小、颜色和形状等) 如何通过指定不同的几何对
阅读全文
posted @ 2017-04-17 11:38 阿蛮的杜鹃
阅读(5084)
评论(0)
推荐(0)
编辑
下一页
公告