上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页
摘要: mysql是关系型数据库,通常用来增删改查,OLTP hive是数据仓库,依赖hdfs,一般只做查询,OLAP 阅读全文
posted @ 2018-10-19 11:43 BoomOoO 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 1、scalaWordCount package com._51doit.spark.day1import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaWorldCount 阅读全文
posted @ 2018-10-17 11:48 BoomOoO 阅读(1593) 评论(0) 推荐(0) 编辑
摘要: def ip2Long(ip: String): Long = { val fragments = ip.split("[.]") var ipNum = 0L for (i <- 0 until fragments.length) { ipNum = fragments(i).toLong | i 阅读全文
posted @ 2018-10-17 11:29 BoomOoO 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 函数在driver端定义。在executor端被调用执行 阅读全文
posted @ 2018-10-17 11:27 BoomOoO 阅读(109) 评论(0) 推荐(0) 编辑
摘要: spark的运算操作有两种类型:分别是Transformation和Action,区别如下: Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。 Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object 阅读全文
posted @ 2018-10-17 09:51 BoomOoO 阅读(712) 评论(0) 推荐(0) 编辑
摘要: 首先了解一下Mapreduce 它最本质的两个过程就是Map和Reduce,Map的应用在于我们需要数据一对一的元素的映射转换,比如说进行截取,进行过滤,或者任何的转换操作,这些一对一的元素转换就称作是Map;Reduce主要就是元素的聚合,就是多个元素对一个元素的聚合,比如求Sum等,这就是Red 阅读全文
posted @ 2018-10-16 21:14 BoomOoO 阅读(3701) 评论(0) 推荐(0) 编辑
摘要: 首先我们来了解一些Spark的优势:1.每一个作业独立调度,可以把所有的作业做一个图进行调度,各个作业之间相互依赖,在调度过程中一起调度,速度快。2.所有过程都基于内存,所以通常也将Spark称作是基于内存的迭代式运算框架。3.spark提供了更丰富的算子,让操作更方便。4.更容易的API:支持Py 阅读全文
posted @ 2018-10-14 21:26 BoomOoO 阅读(1798) 评论(0) 推荐(0) 编辑
摘要: 本文转自:https://www.linuxidc.com/Linux/2018-02/150886.htm 一、Spark on Standalone 1.spark集群启动后,Worker向Master注册信息 2.spark-submit命令提交程序后,driver和application也会 阅读全文
posted @ 2018-10-12 12:49 BoomOoO 阅读(1396) 评论(0) 推荐(0) 编辑
摘要: 解决办法:shift+空格半角全角快捷键 阅读全文
posted @ 2018-10-10 19:35 BoomOoO 阅读(2990) 评论(0) 推荐(0) 编辑
摘要: 1.构建master的actor package SparkRPC import akka.actor.{Actor, ActorSystem, Props}import com.typesafe.config.ConfigFactory import scala.collection.mutabl 阅读全文
posted @ 2018-09-29 15:53 BoomOoO 阅读(995) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页