Spark - 随笔分类 - HarkLee

error: bad symbolic reference. A signature in HiveContext.class refers to term hive

摘要：在spark-shell中执行val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)报错： error: bad symbolic reference. A signature in HiveContext.class refer 阅读全文

posted @ 2016-07-11 15:30 HarkLee 阅读(682) 评论(0) 推荐(0) 编辑

【转】Spark-Sql版本升级对应的新特性汇总

摘要：Spark-Sql版本升级对应的新特性汇总 SparkSQL的前身是Shark。由于Shark自身的不完善，2014年6月1日Reynold Xin宣布：停止对Shark的开发。SparkSQL抛弃原有Shark的代码，汲取了Shark的一些优点，如内存列存储（In-Memory Columnar 阅读全文

posted @ 2016-07-05 10:33 HarkLee 阅读(974) 评论(0) 推荐(0) 编辑

【转】【技术博客】Spark性能优化指南——高级篇

摘要：http://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651745207&idx=1&sn=3d70d59cede236eb1cb4f7374387a235&scene=0#rd 【技术博客】Spark性能优化指南——高级篇 2016-05-13 阅读全文

posted @ 2016-05-27 10:46 HarkLee 阅读(745) 评论(0) 推荐(0) 编辑

【转】Spark性能优化指南——基础篇

摘要：http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOETxAx0OeGoHnm7Xk&from= 阅读全文

posted @ 2016-05-27 10:45 HarkLee 阅读(20123) 评论(2) 推荐(0) 编辑

Spark官方文档中推荐的硬件配置

摘要：1、关于存储：1）、可能的话，Spark节点与HDFS节点是一一对应的2）、如果做不到，那至少保证Spark节点与HDFS节点是一个局域网内2、关于硬盘：1）、官方推荐每台机子4-8个硬盘，然后不需要做RAID（因为本身你的硬盘就是用来做），配置spark.local.dir结点啦3、关于内存1）、... 阅读全文

posted @ 2015-07-31 16:33 HarkLee 阅读(916) 评论(0) 推荐(0) 编辑

关于spark standalone模式下的executor问题

摘要：1、spark standalone模式下，worker与executor是一一对应的。2、如果想要多个worker，那么需要修改spark-env的SPARK_WORKER_INSTANCES为2，那么开启集群后，每个节点就是两个worker了，然后启动任务后，每个节点就是两个executor啦... 阅读全文

posted @ 2015-07-31 15:03 HarkLee 阅读(392) 评论(0) 推荐(0) 编辑

恢复spark挂掉的节点

摘要：背景：某个Worker节点挂掉了，我们需要将Worker进行启动恢复，同时可以恢复streaming中的executor解决办法：其实很简单，去worker节点中执行sbin/start-slave.sh即可，执行脚本如下：sbin/start-slave.sh10spark://hdp5:7077... 阅读全文

posted @ 2015-07-29 15:40 HarkLee 阅读(1224) 评论(0) 推荐(0) 编辑

启动spark集群

摘要：启动Spark集群spark@master $ ./sbin/start-all.sh也可以一台一台启动，先启动 masterspark@master $ ./sbin/start-master.sh启动两台 slave，spark@worker01 $ ./sbin/start-slave.sh ... 阅读全文

posted @ 2015-07-29 14:51 HarkLee 阅读(653) 评论(0) 推荐(0) 编辑

记录一下SparkStreaming中因为使用redis做数据验证而导致数据结果不对的问题

摘要：业务背景：需要通过redis判断当前用户是否是新用户。当出现新用户后，会将该用户放入到redis中，以标明该用户已不是新用户啦。出现问题：发现入库时，并没有新用户入库，但我看了数据了，确实应该是有新数据问题原因：因为在判断新用户这一步是在flatmap这一步做的。而flatmap后的RDD，后边会被... 阅读全文

posted @ 2015-07-24 17:26 HarkLee 阅读(1371) 评论(2) 推荐(0) 编辑

Operation category READ is not supported in state standby

摘要：不知道神马原因，反正搞了半天，把集群重启才没有问题。。。奇葩，先做个记录啦阅读全文

posted @ 2015-07-22 11:33 HarkLee 阅读(736) 评论(0) 推荐(0) 编辑

spark web ui中的skipped的含义

摘要：顾名思义，跳出的意思啦。例如如图：skipped的stages代表是已经执行过了。所以不需要再执行了。如何，你有一个 testRdd。然后先做 testRdd.Filter("xxx").map("xx")，这个是transform然后再分别做了count和reduce操作。这两个都是actio... 阅读全文

posted @ 2015-07-10 16:12 HarkLee 阅读(4718) 评论(0) 推荐(0) 编辑

关于spark ui中executor显示的内存量与设置的内存量不符的问题

摘要：executor显示的内存量是实际执行程序使用的内存量，也就是排除bspark.storage.memoryFraction设置的比例外，然后使用的内存量。默认是0.6，所以executory和driver默认只会使用40%的内存量阅读全文

posted @ 2015-07-10 15:12 HarkLee 阅读(1118) 评论(0) 推荐(0) 编辑

Spark中hashshuffle与sortshuffle

摘要：在spark1.2以上的版本中，默认shuffle的方式已经变成了sortshuffle（在spark.shuffle.manager修改org.apache.spark.shuffle.sort.HashShuffleManager或者org.apache.spark.shuffle.sort.S... 阅读全文

posted @ 2015-05-26 13:28 HarkLee 阅读(1434) 评论(0) 推荐(0) 编辑

Spark streaming的执行流程

摘要：http://www.cnblogs.com/shenh062326/p/3946341.html 其实流程是从这里转载下来的，我只是在流程叙述中做了一下的标注。当然为了自己能记住的更清楚，我没有直接copy而是打出来的。1、客户端提交作业后，启动Driver，Driver是Spark作业的Mas... 阅读全文

posted @ 2015-05-26 05:57 HarkLee 阅读(4909) 评论(0) 推荐(0) 编辑

Spark streaming的正确使用。。

摘要：转自http://bit1129.iteye.com/blog/2198531代码如下：package spark.examples.streaming import java.sql.{PreparedStatement, Connection, DriverManager} import... 阅读全文

posted @ 2015-05-22 10:43 HarkLee 阅读(1465) 评论(0) 推荐(0) 编辑

spark优化之并行度

摘要：这个其实我前面已经记录过了，这里在记录一下。我可以通过参数人为的来控制分区大小，增加分区中即可增加任务的并行度，并行度高自然运行的就快了嘛。官方推荐集群中每个cpu并行的任务是2-3个（也就是2-3个partition），这样对于资源使用是最充分的那么如何调整并行度呢。在类似 sc.textFile... 阅读全文

posted @ 2015-05-20 11:03 HarkLee 阅读(1274) 评论(0) 推荐(0) 编辑

Spark优化之gc

摘要：对于官方Programming Guides的GC优化一节做了阅读。在这里记录一下我的理解，可能记录的比较混乱没有条理：我理解其实GC优化的主要目的就是在你的任务执行中使用更少的内存，进行更少的gc回收，因为GC回收会使你的任务执行的更慢。使用-verbose:gc -XX:+PrintGCDeta... 阅读全文

posted @ 2015-05-20 07:56 HarkLee 阅读(1689) 评论(0) 推荐(0) 编辑

spark优化之数据结构（减少内存）

摘要：官网是这么说的：The first way to reduce memory consumption is to avoid the Java features that add overhead, such as pointer-based data structures and wrapper ... 阅读全文

posted @ 2015-05-19 18:05 HarkLee 阅读(932) 评论(0) 推荐(0) 编辑

spark streaming限制吞吐

摘要：使用spark.streaming.receiver.maxRate这个属性限制每秒的最大吞吐。官方文档如下：Maximum rate (number of records per second) at which each receiver will receive data. Effective... 阅读全文

posted @ 2015-05-19 10:50 HarkLee 阅读(4288) 评论(1) 推荐(0) 编辑

spark优化之临时目录

摘要：官方是这样说的：Directory to use for "scratch" space in Spark, including map output files and RDDs that get stored on disk. This should be on a fast, local di... 阅读全文

posted @ 2015-05-18 17:35 HarkLee 阅读(1868) 评论(0) 推荐(0) 编辑

HarkLee

打酱油

随笔分类 - Spark

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论