随笔分类 -  spark

该文被密码保护。
posted @ 2018-07-09 16:32 林夕之风 阅读(1) 评论(0) 推荐(0) 编辑
摘要:https://www.cnblogs.com/Scott007/p/3889959.html 阅读全文
posted @ 2018-07-02 15:37 林夕之风 阅读(88) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2018-06-29 11:08 林夕之风 阅读(6) 评论(0) 推荐(0) 编辑
摘要:park一个非常重要的特性就是共享变量。 默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。 Spark为此提供了两种共享变量,一种是Broadca 阅读全文
posted @ 2018-06-25 10:23 林夕之风 阅读(1403) 评论(0) 推荐(0) 编辑
摘要:Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD反复执行多个操作的场景,就只要对RDD计算 阅读全文
posted @ 2018-06-22 16:56 林夕之风 阅读(497) 评论(0) 推荐(0) 编辑
摘要:Spark支持两种RDD操作:transformation和action。transformation操作会针对已有的RDD创建一个新的RDD;而action则主要是对RDD进行最后的操作,比如遍历、reduce、保存到文件等,并可以返回结果给Driver程序。 例如,map就是一种transfor 阅读全文
posted @ 2018-06-22 16:05 林夕之风 阅读(422) 评论(0) 推荐(0) 编辑
摘要:进行Spark核心编程时,首先要做的第一件事,就是创建一个初始的RDD。该RDD中,通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后,才可以通过Spark Core提供的transformation算子,对该RDD进行转换,来获取其他的RDD。 Spark Core提供 阅读全文
posted @ 2018-06-22 13:25 林夕之风 阅读(330) 评论(0) 推荐(0) 编辑
摘要:sparkcontext演示 streamingcontext演示 阅读全文
posted @ 2018-06-22 10:48 林夕之风 阅读(885) 评论(0) 推荐(0) 编辑
摘要:package com.sgm.spark import java.sql.DriverManager import org.apache.spark.SparkConf import org.apache.spark.streaming._ import org.apache.kafka.common.serialization.StringDeserializer import org.a... 阅读全文
posted @ 2018-06-21 13:26 林夕之风 阅读(438) 评论(0) 推荐(0) 编辑
摘要:架构图(资源问题一切从简) 下载必须的包 (注意 kafka spark对jdk,scala 版本有要求,官网查看) wget https://dl.influxdata.com/influxdb/releases/influxdb-1.5.2.x86_64.rpm yum localinstall 阅读全文
posted @ 2018-05-18 16:35 林夕之风 阅读(2525) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示