2018 年 10月 17 日随笔档案 - BoomOoO

2018年10月17日

摘要：问题描述：将来数据量可能很大，所以ip规则肯定是存储在HDFS中的，这样在读取的时候根据切片数量，会启动相应的Task，但是数据切片中就可能不会包含所有的ip规则，然后你处理的log文件获取的ip就找不到对应的省份了。这样就出现了问题。所以现在需要每个Task都会获取到全部的ip规则。但是ip规则的阅读全文

posted @ 2018-10-17 22:01 BoomOoO 阅读(1765) 评论(0) 推荐(0) 编辑

Spark练习代码

摘要： 1、scalaWordCount package com._51doit.spark.day1import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaWorldCount 阅读全文

posted @ 2018-10-17 11:48 BoomOoO 阅读(1593) 评论(0) 推荐(0) 编辑

ip2Long 代码

摘要： def ip2Long(ip: String): Long = { val fragments = ip.split("[.]") var ipNum = 0L for (i <- 0 until fragments.length) { ipNum = fragments(i).toLong | i 阅读全文

posted @ 2018-10-17 11:29 BoomOoO 阅读(188) 评论(0) 推荐(0) 编辑

Spark知识点小结

摘要：函数在driver端定义。在executor端被调用执行阅读全文

posted @ 2018-10-17 11:27 BoomOoO 阅读(109) 评论(0) 推荐(0) 编辑

Transformation和Action

摘要： spark的运算操作有两种类型：分别是Transformation和Action，区别如下： Transformation：代表的是转化操作就是我们的计算流程，返回是RDD[T]，可以是一个链式的转化，并且是延迟触发的。 Action：代表是一个具体的行为，返回的值非RDD类型，可以一个object 阅读全文

posted @ 2018-10-17 09:51 BoomOoO 阅读(712) 评论(0) 推荐(0) 编辑

BoomOoO

公告