随笔分类 - spark

spark 监控jvm

该文被密码保护。

posted @ 2018-07-09 16:32 林夕之风阅读(1) 评论(0) 推荐(0) 编辑

spark on yarn问题

摘要：https://www.cnblogs.com/Scott007/p/3889959.html 阅读全文

posted @ 2018-07-02 15:37 林夕之风阅读(88) 评论(0) 推荐(0) 编辑

spark美团调优

该文被密码保护。

posted @ 2018-06-29 11:08 林夕之风阅读(6) 评论(0) 推荐(0) 编辑

spark 共享变量

摘要：park一个非常重要的特性就是共享变量。默认情况下，如果在一个算子的函数中使用到了某个外部的变量，那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量，那么这种方式是做不到的。 Spark为此提供了两种共享变量，一种是Broadca 阅读全文

posted @ 2018-06-25 10:23 林夕之风阅读(1403) 评论(0) 推荐(0) 编辑

spark rdd持久化

摘要：Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并且在之后对该RDD的反复使用中，直接使用内存缓存的partition。这样的话，对于针对一个RDD反复执行多个操作的场景，就只要对RDD计算阅读全文

posted @ 2018-06-22 16:56 林夕之风阅读(497) 评论(0) 推荐(0) 编辑

spark transformation和action

摘要：Spark支持两种RDD操作：transformation和action。transformation操作会针对已有的RDD创建一个新的RDD；而action则主要是对RDD进行最后的操作，比如遍历、reduce、保存到文件等，并可以返回结果给Driver程序。例如，map就是一种transfor 阅读全文

posted @ 2018-06-22 16:05 林夕之风阅读(422) 评论(0) 推荐(0) 编辑

scalca创建rdd

摘要：进行Spark核心编程时，首先要做的第一件事，就是创建一个初始的RDD。该RDD中，通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后，才可以通过Spark Core提供的transformation算子，对该RDD进行转换，来获取其他的RDD。 Spark Core提供阅读全文

posted @ 2018-06-22 13:25 林夕之风阅读(330) 评论(0) 推荐(0) 编辑

spark wordcount统计排序演示（core与streaming)

摘要：sparkcontext演示 streamingcontext演示阅读全文

posted @ 2018-06-22 10:48 林夕之风阅读(885) 评论(0) 推荐(0) 编辑

spark 数据插入mysql

摘要：package com.sgm.spark import java.sql.DriverManager import org.apache.spark.SparkConf import org.apache.spark.streaming._ import org.apache.kafka.common.serialization.StringDeserializer import org.a... 阅读全文

posted @ 2018-06-21 13:26 林夕之风阅读(438) 评论(0) 推荐(0) 编辑

flume+kafka+zookeeper+spark+infuxdb+grafana+kapacitor监控平台

摘要：架构图（资源问题一切从简）下载必须的包（注意 kafka spark对jdk,scala 版本有要求，官网查看） wget https://dl.influxdata.com/influxdb/releases/influxdb-1.5.2.x86_64.rpm yum localinstall 阅读全文

posted @ 2018-05-18 16:35 林夕之风阅读(2525) 评论(0) 推荐(0) 编辑

公告

昵称：林夕之风
园龄： 8年2个月
粉丝： 9
关注： 5

+加关注

2025年3月

日

一

二

三

四

五

六

林夕之风

随笔分类 - spark

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论