摘要: 前面我们一直操作的是,通过一个文件来读取数据,这个里面不涉及数据相关的只是,今天我们来介绍一下spark操作中存放与读取 1.首先我们先介绍的是把数据存放进入mysql中,今天介绍的这个例子是我们前两篇介绍的统计IP的次数的一篇内容,最后的返回值类型是List((String,Int))类型的,其内 阅读全文
posted @ 2017-01-05 21:59 蜗牛不爱海绵宝宝 阅读(5266) 评论(0) 推荐(0) 编辑
摘要: 最近,有一份数据,是关于学校的数据,这个里面有所有学生的信息,今天闲来没事,我就想用spark的方式来读取文件,并且来统计这个学校的各个民族的情况,以前我用hadoop中mapReduce来计算,不得不说,又麻烦计算速度又慢首先,我们先看看这份数据长什么样子? 我在这个操作的时候,以为数据都是全的, 阅读全文
posted @ 2017-01-05 21:23 蜗牛不爱海绵宝宝 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 今天,我们还是在介绍spark的小练习,这次的小练习还是基于IP相关的操作,我们可以先看一下今天的需求,我们有两个文件, 第一个文件,是IP的字典,也就是我们上一篇介绍过的,就是表明了所有IP字段所属的位置,以及最大值以及最小值(例如) 例如第一行的数据, 1.0.1.0|1.0.3.255|167 阅读全文
posted @ 2017-01-05 01:26 蜗牛不爱海绵宝宝 阅读(1085) 评论(0) 推荐(0) 编辑