随笔- 352 文章- 1 评论- 43 阅读- 86万

07 2015 档案

摘要：1、关于存储：1）、可能的话，Spark节点与HDFS节点是一一对应的2）、如果做不到，那至少保证Spark节点与HDFS节点是一个局域网内2、关于硬盘：1）、官方推荐每台机子4-8个硬盘，然后不需要做RAID（因为本身你的硬盘就是用来做），配置spark.local.dir结点啦3、关于内存1）、... 阅读全文

posted @ 2015-07-31 16:33 HarkLee 阅读(916) 评论(0) 推荐(0) 编辑

关于spark standalone模式下的executor问题

摘要：1、spark standalone模式下，worker与executor是一一对应的。2、如果想要多个worker，那么需要修改spark-env的SPARK_WORKER_INSTANCES为2，那么开启集群后，每个节点就是两个worker了，然后启动任务后，每个节点就是两个executor啦... 阅读全文

posted @ 2015-07-31 15:03 HarkLee 阅读(392) 评论(0) 推荐(0) 编辑

恢复spark挂掉的节点

摘要：背景：某个Worker节点挂掉了，我们需要将Worker进行启动恢复，同时可以恢复streaming中的executor解决办法：其实很简单，去worker节点中执行sbin/start-slave.sh即可，执行脚本如下：sbin/start-slave.sh10spark://hdp5:7077... 阅读全文

posted @ 2015-07-29 15:40 HarkLee 阅读(1224) 评论(0) 推荐(0) 编辑

启动spark集群

摘要：启动Spark集群spark@master $ ./sbin/start-all.sh也可以一台一台启动，先启动 masterspark@master $ ./sbin/start-master.sh启动两台 slave，spark@worker01 $ ./sbin/start-slave.sh ... 阅读全文

posted @ 2015-07-29 14:51 HarkLee 阅读(653) 评论(0) 推荐(0) 编辑

记录一下SparkStreaming中因为使用redis做数据验证而导致数据结果不对的问题

摘要：业务背景：需要通过redis判断当前用户是否是新用户。当出现新用户后，会将该用户放入到redis中，以标明该用户已不是新用户啦。出现问题：发现入库时，并没有新用户入库，但我看了数据了，确实应该是有新数据问题原因：因为在判断新用户这一步是在flatmap这一步做的。而flatmap后的RDD，后边会被... 阅读全文

posted @ 2015-07-24 17:26 HarkLee 阅读(1371) 评论(2) 推荐(0) 编辑

ps -aux与ps -ef

摘要：ps -aux与ps -ef这两个命令显示的结果是差不多的。不同之处就是显示风格不同，前者是BSD风格，后者SYSTEM V（其实我不太明白这尼玛风格是什么跟什么，我看起来都差不多啊）然后重要的不同之处就是ps -aux会对于查询出来的命令做截断，这样你grep后的结果有可能是不准的。所以推荐使用... 阅读全文

posted @ 2015-07-23 11:24 HarkLee 阅读(735) 评论(0) 推荐(0) 编辑

Operation category READ is not supported in state standby

摘要：不知道神马原因，反正搞了半天，把集群重启才没有问题。。。奇葩，先做个记录啦阅读全文

posted @ 2015-07-22 11:33 HarkLee 阅读(736) 评论(0) 推荐(0) 编辑

spark web ui中的skipped的含义

摘要：顾名思义，跳出的意思啦。例如如图：skipped的stages代表是已经执行过了。所以不需要再执行了。如何，你有一个 testRdd。然后先做 testRdd.Filter("xxx").map("xx")，这个是transform然后再分别做了count和reduce操作。这两个都是actio... 阅读全文

posted @ 2015-07-10 16:12 HarkLee 阅读(4718) 评论(0) 推荐(0) 编辑

关于spark ui中executor显示的内存量与设置的内存量不符的问题

摘要：executor显示的内存量是实际执行程序使用的内存量，也就是排除bspark.storage.memoryFraction设置的比例外，然后使用的内存量。默认是0.6，所以executory和driver默认只会使用40%的内存量阅读全文

posted @ 2015-07-10 15:12 HarkLee 阅读(1118) 评论(0) 推荐(0) 编辑

flume修改配置文件

摘要：flume修改配置文件后，flume进程会自动将配置文件更新至服务中，同时会初始化日志，重新对于metrics进行记录的。所以拿api做监控的同学要注意这点啦阅读全文

posted @ 2015-07-02 17:57 HarkLee 阅读(978) 评论(0) 推荐(0) 编辑