大漠无影 - 博客园

2018年5月14日

摘要：原理介绍：并行度：其实就是指的是，spark作业中，各个stage的task数量，也代表了spark作业做得各个阶段的stage的并行度设置参数： spark.default.parallelism 官网推荐此参数设置成cpu core数量的2~3倍，比如150个cpu core，分配了150 阅读全文

posted @ 2018-05-14 12:19 大漠无影阅读(192) 评论(0) 推荐(0) 编辑

spark作业调优（一）-------合理分配资源

摘要：原理： spark作业sparkcontext、DAGDAGSchedler、taskSchulder、会将编写算子、切割成大量的task，会提交到application的excutor上执行如何资源设置cup core和excutor较少，就会造成能并行处理的task数量较少，从而就会增加task 阅读全文

posted @ 2018-05-14 12:04 大漠无影阅读(113) 评论(0) 推荐(0) 编辑

2017年8月30日

python基本语法

摘要： 1、代码结构 1）注释单行注释：# 多行注释：""" """ """ a=11111 print(a) """ 2)基本数据类型 boolean：　True 和False （python里边boolean类型的区分大小写） int：整数类型（python不区分short，long，int 统一阅读全文

posted @ 2017-08-30 10:12 大漠无影阅读(152) 评论(0) 推荐(0) 编辑

2017年5月18日

Spark架构分析

摘要：提交spark程序（apliaction）会通过反射再本机上生成一个driveractor（提交方式是standalone）执行application程序首先构造出sparkconf然后构造出sparkcontextsparkcontext初始化的时候生出两个调度器DASGSchuleder和Ta 阅读全文

posted @ 2017-05-18 09:33 大漠无影阅读(160) 评论(0) 推荐(0) 编辑

2017年4月19日

mr运行出错，解决办法

摘要： 1/运行mr程序出错connecting to resoucemanager retrying .... retrying ..... 原因是没有启动yarn或者启动失败 2/初始化工作目录结构hdfs namenode -format 只是初始化了namenode的工作目录而datanode的工作阅读全文

posted @ 2017-04-19 09:25 大漠无影阅读(288) 评论(0) 推荐(0) 编辑

2017年4月18日

hbase调优

摘要：服务端 1.hbase.regionserver.handler.count：rpc请求的线程数量，默认值是10，生产环境建议使用100，也不是越大越好，特别是当请求内容很大的时候，比如scan/put几M的数据，会占用过多的内存，有可能导致频繁的GC，甚至出现内存溢出。 2.hbase.maste 阅读全文

posted @ 2017-04-18 16:10 大漠无影阅读(579) 评论(1) 推荐(0) 编辑

2016年11月16日

虚拟机长时间不关造成的问题

摘要：问题：继续输入root密码输入命令 fsck /dev/sda2 fix :yes 允许修复：一般两个磁盘错误同样的修复就解决了！阅读全文

posted @ 2016-11-16 22:46 大漠无影阅读(324) 评论(0) 推荐(0) 编辑

crontab 使用

摘要： crontab -e 编辑任务 ### first crontab */1 * * * * /bin/date >> /home/hadoop/app/log.txt crontab 基本定义 * * * * * +命令 1.六个字段之间使用逗号隔开 2.字段含义 * * * * * 分（1-59 阅读全文

posted @ 2016-11-16 22:40 大漠无影阅读(116) 评论(0) 推荐(0) 编辑

2016年11月12日

虚拟机克隆网络问题的解决

摘要： 1、修改eth0(删除uuid，删除Harddr) 2、rm -rf /etc/udev/rules.d/70-persistent-net.rules 3、reboot 网络问题解决！阅读全文

posted @ 2016-11-12 16:16 大漠无影阅读(186) 评论(0) 推荐(0) 编辑