2017 年 1月 5 日随笔档案 - 蜗牛不爱海绵宝宝

2017年1月5日

摘要：前面我们一直操作的是，通过一个文件来读取数据，这个里面不涉及数据相关的只是，今天我们来介绍一下spark操作中存放与读取 1.首先我们先介绍的是把数据存放进入mysql中，今天介绍的这个例子是我们前两篇介绍的统计IP的次数的一篇内容，最后的返回值类型是List((String,Int))类型的，其内阅读全文

posted @ 2017-01-05 21:59 蜗牛不爱海绵宝宝阅读(5266) 评论(0) 推荐(0) 编辑

spark练习--统计xxx大学的各个少数名族的情况

摘要：最近，有一份数据，是关于学校的数据，这个里面有所有学生的信息，今天闲来没事，我就想用spark的方式来读取文件，并且来统计这个学校的各个民族的情况，以前我用hadoop中mapReduce来计算，不得不说，又麻烦计算速度又慢首先，我们先看看这份数据长什么样子? 我在这个操作的时候，以为数据都是全的，阅读全文

posted @ 2017-01-05 21:23 蜗牛不爱海绵宝宝阅读(389) 评论(0) 推荐(0) 编辑

spark练习---ip匹配以及广播的特性

摘要：今天，我们还是在介绍spark的小练习，这次的小练习还是基于IP相关的操作，我们可以先看一下今天的需求，我们有两个文件，第一个文件，是IP的字典，也就是我们上一篇介绍过的，就是表明了所有IP字段所属的位置，以及最大值以及最小值(例如) 例如第一行的数据， 1.0.1.0|1.0.3.255|167 阅读全文

posted @ 2017-01-05 01:26 蜗牛不爱海绵宝宝阅读(1085) 评论(0) 推荐(0) 编辑

蜗牛不爱海绵宝宝

公告