随笔分类 -  spark

摘要:7 3 I'm trying to save dataframe in table hive. In spark 1.6 it's work but after migration to 2.2.0 it doesn't work anymore. Here's the code: blocs .t 阅读全文
posted @ 2020-08-14 14:00 大数据从业者FelixZh 阅读(1883) 评论(0) 推荐(0) 编辑
摘要:6 2 I am submitting a job to YARN (on spark 2.1.1 + kafka 0.10.2.1) which connects to a secured hbase cluster. This job, performs just fine when i am 阅读全文
posted @ 2020-08-12 13:51 大数据从业者FelixZh 阅读(1132) 评论(0) 推荐(0) 编辑
摘要:1. 提交任务的命令 spark-submit \--class <classname> \--master yarn \--deploy-mode client \--executor-memory 2g \--executor-cores 2 \--driver-memory 2g \--num 阅读全文
posted @ 2019-03-20 09:01 大数据从业者FelixZh 阅读(2984) 评论(0) 推荐(0) 编辑
摘要:一、准备环境: 创建Kafka Topic和HBase表 1. 在kerberos环境下创建Kafka Topic 1.1 因为kafka默认使用的协议为PLAINTEXT,在kerberos环境下需要变更其通信协议: 在${KAFKA_HOME}/config/producer.propertie 阅读全文
posted @ 2019-03-19 14:52 大数据从业者FelixZh 阅读(1770) 评论(0) 推荐(0) 编辑
摘要:Use the following steps to run a Spark Streaming job on a Kerberos-enabled cluster. Select or create a user account to be used as principal. This shou 阅读全文
posted @ 2019-03-19 14:39 大数据从业者FelixZh 阅读(337) 评论(0) 推荐(0) 编辑
摘要:一、spark写入hbase hbase client以put方式封装数据,并支持逐条或批量插入。spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDataset两种方式写入hbase。为此,将同样的数据插入其中对比性能。依赖如下: 1. put逐条插入1. 阅读全文
posted @ 2019-01-10 17:17 大数据从业者FelixZh 阅读(4231) 评论(0) 推荐(0) 编辑
摘要:Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个 阅读全文
posted @ 2018-12-21 19:19 大数据从业者FelixZh 阅读(769) 评论(0) 推荐(0) 编辑
摘要:解决方案:一直以来,基于Akka实现的RPC通信框架是Spark引以为豪的主要特性,也是与Hadoop等分布式计算框架对比过程中一大亮点。 但是时代和技术都在演化,从Spark1.3.1版本开始,为了解决大块数据(如Shuffle)的传输问题,Spark引入了Netty通信框架,到了1.6.0版本, 阅读全文
posted @ 2018-09-27 19:54 大数据从业者FelixZh 阅读(2214) 评论(0) 推荐(0) 编辑
摘要:概要 Spark RDD主要由Dependency、Partition、Partitioner组成,Partition是其中之一。一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份,每份数据对应到RDD中的一个Partition,Partition的数量决定了 阅读全文
posted @ 2018-09-14 08:48 大数据从业者FelixZh 阅读(1364) 评论(0) 推荐(1) 编辑
摘要:http://stark-summer.iteye.com/blog/2178096 RDD的核心方法: 首先看一下getPartitions方法的源码: getPartitions返回的是一系列partitions的集合,即一个Partition类型的数组 我们就想进入HadoopRDD实现: 1 阅读全文
posted @ 2018-09-14 08:42 大数据从业者FelixZh 阅读(823) 评论(0) 推荐(0) 编辑
摘要:What’s New, What’s Changed and How to get Started. Are you ready for Apache Spark 2.0? If you are just getting started with Apache Spark, the 2.0 rele 阅读全文
posted @ 2018-08-24 08:37 大数据从业者FelixZh 阅读(286) 评论(0) 推荐(0) 编辑
摘要:See Apache Spark 2.0 API Improvements: RDD, DataFrame, DataSet and SQL here. Apache Spark is evolving at a rapid pace, including changes and additions 阅读全文
posted @ 2018-08-24 08:36 大数据从业者FelixZh 阅读(279) 评论(0) 推荐(0) 编辑
摘要:1、spark推测执行开启 设置 spark.speculation=true即可 2、spark开启推测执行的好处 推测执行是指对于一个Stage里面运行慢的Task,会在其他节点的Executor上再次启动这个task,如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终 阅读全文
posted @ 2018-06-27 14:40 大数据从业者FelixZh 阅读(1065) 评论(0) 推荐(0) 编辑
摘要:下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则 <1> 每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面 去执行。Stage指的是一组并行运行 阅读全文
posted @ 2018-06-27 14:39 大数据从业者FelixZh 阅读(990) 评论(0) 推荐(0) 编辑
摘要:An ingest pattern that we commonly see being adopted at Cloudera customers is Apache Spark Streaming applications which read data from Kafka. Streamin 阅读全文
posted @ 2018-05-30 19:33 大数据从业者FelixZh 阅读(1524) 评论(0) 推荐(0) 编辑
摘要:Explore the configuration changes that Cigna’s Big Data Analytics team has made to optimize the performance of its real-time architecture. Real-time s 阅读全文
posted @ 2018-05-28 17:44 大数据从业者FelixZh 阅读(751) 评论(0) 推荐(0) 编辑
摘要:1、背景: 控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式。查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2017-11-11 阅读全文
posted @ 2018-03-19 17:18 大数据从业者FelixZh 阅读(3719) 评论(1) 推荐(0) 编辑
摘要:1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不 阅读全文
posted @ 2017-02-06 18:01 大数据从业者FelixZh 阅读(3709) 评论(0) 推荐(0) 编辑
摘要:当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件: 1、输入的数据来自可靠的数据源和可靠的接收器; 2、应用程序的metadata被application的driver持久化了(ch 阅读全文
posted @ 2017-02-06 17:45 大数据从业者FelixZh 阅读(4386) 评论(1) 推荐(1) 编辑
摘要:本文来自Spark Streaming项目带头人 Tathagata Das的博客文章,他现在就职于Databricks公司。过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark Streaming的研究工作。本文主要谈及了Spark Streaming容错的改进和零数据丢失。 阅读全文
posted @ 2016-09-29 20:32 大数据从业者FelixZh 阅读(912) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示