随笔分类 - spark
摘要:https://www.cnblogs.com/Scott007/p/3889959.html
阅读全文
摘要:park一个非常重要的特性就是共享变量。 默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。 Spark为此提供了两种共享变量,一种是Broadca
阅读全文
摘要:Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD反复执行多个操作的场景,就只要对RDD计算
阅读全文
摘要:Spark支持两种RDD操作:transformation和action。transformation操作会针对已有的RDD创建一个新的RDD;而action则主要是对RDD进行最后的操作,比如遍历、reduce、保存到文件等,并可以返回结果给Driver程序。 例如,map就是一种transfor
阅读全文
摘要:进行Spark核心编程时,首先要做的第一件事,就是创建一个初始的RDD。该RDD中,通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后,才可以通过Spark Core提供的transformation算子,对该RDD进行转换,来获取其他的RDD。 Spark Core提供
阅读全文
摘要:sparkcontext演示 streamingcontext演示
阅读全文
摘要:package com.sgm.spark import java.sql.DriverManager import org.apache.spark.SparkConf import org.apache.spark.streaming._ import org.apache.kafka.common.serialization.StringDeserializer import org.a...
阅读全文
摘要:架构图(资源问题一切从简) 下载必须的包 (注意 kafka spark对jdk,scala 版本有要求,官网查看) wget https://dl.influxdata.com/influxdb/releases/influxdb-1.5.2.x86_64.rpm yum localinstall
阅读全文