随笔分类 - Spark
摘要:在spark-shell中执行val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)报错: error: bad symbolic reference. A signature in HiveContext.class refer
阅读全文
摘要:Spark-Sql版本升级对应的新特性汇总 SparkSQL的前身是Shark。由于Shark自身的不完善,2014年6月1日Reynold Xin宣布:停止对Shark的开发。SparkSQL抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar
阅读全文
摘要:http://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651745207&idx=1&sn=3d70d59cede236eb1cb4f7374387a235&scene=0#rd 【技术博客】Spark性能优化指南——高级篇 2016-05-13
阅读全文
摘要:http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOETxAx0OeGoHnm7Xk&from=
阅读全文
摘要:1、关于存储:1)、可能的话,Spark节点与HDFS节点是一一对应的2)、如果做不到,那至少保证Spark节点与HDFS节点是一个局域网内2、关于硬盘:1)、官方推荐每台机子4-8个硬盘,然后不需要做RAID(因为本身你的硬盘就是用来做),配置spark.local.dir结点啦3、关于内存1)、...
阅读全文
摘要:1、spark standalone模式下,worker与executor是一一对应的。2、如果想要多个worker,那么需要修改spark-env的SPARK_WORKER_INSTANCES为2,那么开启集群后, 每个节点就是两个worker了,然后启动任务后,每个节点就是两个executor啦...
阅读全文
摘要:背景:某个Worker节点挂掉了,我们需要将Worker进行启动恢复,同时可以恢复streaming中的executor解决办法:其实很简单,去worker节点中执行sbin/start-slave.sh即可,执行脚本如下:sbin/start-slave.sh10spark://hdp5:7077...
阅读全文
摘要:启动Spark集群spark@master $ ./sbin/start-all.sh也可以一台一台启动,先启动 masterspark@master $ ./sbin/start-master.sh启动两台 slave,spark@worker01 $ ./sbin/start-slave.sh ...
阅读全文
摘要:业务背景:需要通过redis判断当前用户是否是新用户。当出现新用户后,会将该用户放入到redis中,以标明该用户已不是新用户啦。出现问题:发现入库时,并没有新用户入库,但我看了数据了,确实应该是有新数据问题原因:因为在判断新用户这一步是在flatmap这一步做的。而flatmap后的RDD,后边会被...
阅读全文
摘要:不知道神马原因,反正搞了半天,把集群重启才没有问题。。。奇葩,先做个记录啦
阅读全文
摘要:顾名思义,跳出的意思啦。例如如图:skipped的stages代表是已经执行过了。所以不需要再执行了。如何,你有一个 testRdd。然后先做 testRdd.Filter("xxx").map("xx"), 这个是transform然后再分别做了count和reduce操作。 这两个都是actio...
阅读全文
摘要:executor显示的内存量是实际执行程序使用的内存量,也就是排除bspark.storage.memoryFraction设置的比例外,然后使用的内存量。 默认是0.6,所以executory和driver默认只会使用40%的内存量
阅读全文
摘要:在spark1.2以上的版本中,默认shuffle的方式已经变成了sortshuffle(在spark.shuffle.manager修改org.apache.spark.shuffle.sort.HashShuffleManager或者org.apache.spark.shuffle.sort.S...
阅读全文
摘要:http://www.cnblogs.com/shenh062326/p/3946341.html 其实流程是从这里转载下来的,我只是在流程叙述中做了一下的标注。 当然为了自己能记住的更清楚,我没有直接copy而是打出来的。1、客户端提交作业后,启动Driver,Driver是Spark作业的Mas...
阅读全文
摘要:转自http://bit1129.iteye.com/blog/2198531代码如下:package spark.examples.streaming import java.sql.{PreparedStatement, Connection, DriverManager} import...
阅读全文
摘要:这个其实我前面已经记录过了,这里在记录一下。我可以通过参数人为的来控制分区大小,增加分区中即可增加任务的并行度,并行度高自然运行的就快了嘛。官方推荐集群中每个cpu并行的任务是2-3个(也就是2-3个partition),这样对于资源使用是最充分的那么如何调整并行度呢。在类似 sc.textFile...
阅读全文
摘要:对于官方Programming Guides的GC优化一节做了阅读。在这里记录一下我的理解,可能记录的比较混乱没有条理:我理解其实GC优化的主要目的就是在你的任务执行中使用更少的内存,进行更少的gc回收,因为GC回收会使你的任务执行的更慢。使用-verbose:gc -XX:+PrintGCDeta...
阅读全文
摘要:官网是这么说的:The first way to reduce memory consumption is to avoid the Java features that add overhead, such as pointer-based data structures and wrapper ...
阅读全文
摘要:使用spark.streaming.receiver.maxRate这个属性限制每秒的最大吞吐。官方文档如下:Maximum rate (number of records per second) at which each receiver will receive data. Effective...
阅读全文
摘要:官方是这样说的:Directory to use for "scratch" space in Spark, including map output files and RDDs that get stored on disk. This should be on a fast, local di...
阅读全文