摘要:
mysql是关系型数据库,通常用来增删改查,OLTP hive是数据仓库,依赖hdfs,一般只做查询,OLAP 阅读全文
摘要:
1、scalaWordCount package com._51doit.spark.day1import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaWorldCount 阅读全文
摘要:
def ip2Long(ip: String): Long = { val fragments = ip.split("[.]") var ipNum = 0L for (i <- 0 until fragments.length) { ipNum = fragments(i).toLong | i 阅读全文
摘要:
函数在driver端定义。在executor端被调用执行 阅读全文
摘要:
spark的运算操作有两种类型:分别是Transformation和Action,区别如下: Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。 Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object 阅读全文
摘要:
首先了解一下Mapreduce 它最本质的两个过程就是Map和Reduce,Map的应用在于我们需要数据一对一的元素的映射转换,比如说进行截取,进行过滤,或者任何的转换操作,这些一对一的元素转换就称作是Map;Reduce主要就是元素的聚合,就是多个元素对一个元素的聚合,比如求Sum等,这就是Red 阅读全文
摘要:
首先我们来了解一些Spark的优势:1.每一个作业独立调度,可以把所有的作业做一个图进行调度,各个作业之间相互依赖,在调度过程中一起调度,速度快。2.所有过程都基于内存,所以通常也将Spark称作是基于内存的迭代式运算框架。3.spark提供了更丰富的算子,让操作更方便。4.更容易的API:支持Py 阅读全文
摘要:
本文转自:https://www.linuxidc.com/Linux/2018-02/150886.htm 一、Spark on Standalone 1.spark集群启动后,Worker向Master注册信息 2.spark-submit命令提交程序后,driver和application也会 阅读全文
摘要:
解决办法:shift+空格半角全角快捷键 阅读全文
摘要:
1.构建master的actor package SparkRPC import akka.actor.{Actor, ActorSystem, Props}import com.typesafe.config.ConfigFactory import scala.collection.mutabl 阅读全文