07 2015 档案
摘要:1、关于存储:1)、可能的话,Spark节点与HDFS节点是一一对应的2)、如果做不到,那至少保证Spark节点与HDFS节点是一个局域网内2、关于硬盘:1)、官方推荐每台机子4-8个硬盘,然后不需要做RAID(因为本身你的硬盘就是用来做),配置spark.local.dir结点啦3、关于内存1)、...
阅读全文
摘要:1、spark standalone模式下,worker与executor是一一对应的。2、如果想要多个worker,那么需要修改spark-env的SPARK_WORKER_INSTANCES为2,那么开启集群后, 每个节点就是两个worker了,然后启动任务后,每个节点就是两个executor啦...
阅读全文
摘要:背景:某个Worker节点挂掉了,我们需要将Worker进行启动恢复,同时可以恢复streaming中的executor解决办法:其实很简单,去worker节点中执行sbin/start-slave.sh即可,执行脚本如下:sbin/start-slave.sh10spark://hdp5:7077...
阅读全文
摘要:启动Spark集群spark@master $ ./sbin/start-all.sh也可以一台一台启动,先启动 masterspark@master $ ./sbin/start-master.sh启动两台 slave,spark@worker01 $ ./sbin/start-slave.sh ...
阅读全文
摘要:业务背景:需要通过redis判断当前用户是否是新用户。当出现新用户后,会将该用户放入到redis中,以标明该用户已不是新用户啦。出现问题:发现入库时,并没有新用户入库,但我看了数据了,确实应该是有新数据问题原因:因为在判断新用户这一步是在flatmap这一步做的。而flatmap后的RDD,后边会被...
阅读全文
摘要:ps -aux与ps -ef这两个命令显示的结果是差不多的。不同之处就是显示风格不同,前者是BSD风格,后者SYSTEM V(其实我不太明白这尼玛风格是什么跟什么,我看起来都差不多啊)然后重要的不同之处就是ps -aux会对于查询出来的命令做截断,这样你grep后的结果有可能是不准的。 所以推荐使用...
阅读全文
摘要:不知道神马原因,反正搞了半天,把集群重启才没有问题。。。奇葩,先做个记录啦
阅读全文
摘要:顾名思义,跳出的意思啦。例如如图:skipped的stages代表是已经执行过了。所以不需要再执行了。如何,你有一个 testRdd。然后先做 testRdd.Filter("xxx").map("xx"), 这个是transform然后再分别做了count和reduce操作。 这两个都是actio...
阅读全文
摘要:executor显示的内存量是实际执行程序使用的内存量,也就是排除bspark.storage.memoryFraction设置的比例外,然后使用的内存量。 默认是0.6,所以executory和driver默认只会使用40%的内存量
阅读全文
摘要:flume修改配置文件后,flume进程会自动将配置文件更新至服务中,同时会初始化日志,重新对于metrics进行记录的。 所以拿api做监控的同学要注意这点啦
阅读全文