摘要: 问题描述:将来数据量可能很大,所以ip规则肯定是存储在HDFS中的,这样在读取的时候根据切片数量,会启动相应的Task,但是数据切片中就可能不会包含所有的ip规则,然后你处理的log文件获取的ip就找不到对应的省份了。这样就出现了问题。所以现在需要每个Task都会获取到全部的ip规则。但是ip规则的 阅读全文
posted @ 2018-10-17 22:01 BoomOoO 阅读(1765) 评论(0) 推荐(0) 编辑
摘要: 1、scalaWordCount package com._51doit.spark.day1import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaWorldCount 阅读全文
posted @ 2018-10-17 11:48 BoomOoO 阅读(1593) 评论(0) 推荐(0) 编辑
摘要: def ip2Long(ip: String): Long = { val fragments = ip.split("[.]") var ipNum = 0L for (i <- 0 until fragments.length) { ipNum = fragments(i).toLong | i 阅读全文
posted @ 2018-10-17 11:29 BoomOoO 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 函数在driver端定义。在executor端被调用执行 阅读全文
posted @ 2018-10-17 11:27 BoomOoO 阅读(109) 评论(0) 推荐(0) 编辑
摘要: spark的运算操作有两种类型:分别是Transformation和Action,区别如下: Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。 Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object 阅读全文
posted @ 2018-10-17 09:51 BoomOoO 阅读(712) 评论(0) 推荐(0) 编辑