04 2019 档案

摘要:op.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302) at org.apache.hadoop.yarn.server.nodemanager.conta 阅读全文
posted @ 2019-04-29 20:10 niutao 阅读(751) 评论(0) 推荐(0) 编辑
摘要:在hadoop-env.sh中添加: # 在配置namenode和datanode时都会有用到JMX_OPTS的代码,是为了减少重复提取出的公共代码 export JMX_OPTS="-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxrem 阅读全文
posted @ 2019-04-29 18:04 niutao 阅读(1507) 评论(0) 推荐(0) 编辑
摘要:最近在测试环境下,hive的metastore不稳定,于是做一次JVM优化 在hive-env.sh中 export HADOOP_HOME=/opt/cdh/hadoop-2.6.0-cdh5.14.0 if [ "$SERVICE" = "cli" ]; then if [ -z "$DEBUG 阅读全文
posted @ 2019-04-29 17:38 niutao 阅读(1641) 评论(0) 推荐(0) 编辑
摘要:Hbase版本:1.2.0-cdh5.14.0 1):下载phoneix源码 链接:https://pan.baidu.com/s/1uryK_jLEekdXV04DRc3axg 密码:bkqg 2):解压后,更改pom文件,指定你需要的cdh版本 因为我的是CDH5.14.0,所以要更改为我的版本 阅读全文
posted @ 2019-04-29 11:31 niutao 阅读(717) 评论(0) 推荐(0) 编辑
摘要:临时做个随笔 下载snappy-1.1.1.tar.gz 解压后需要提前安装: yum -y update gccyum -y install gcc+ gcc-c++ 然后在解压后的snappy目录执行: ./confurati make make install 解压完毕会在/usr/local 阅读全文
posted @ 2019-04-29 01:04 niutao 阅读(348) 评论(0) 推荐(0) 编辑
摘要:最近没有管测试环境的,上去看了下,好家伙,kafka羁留了上百万数据,于是打算把数据同步到测试的Hbase库中,在这期间发现了插入性能问题 def putMapData(tableName: String , columnFamily:String, key:String , mapData:Map 阅读全文
posted @ 2019-04-28 18:58 niutao 阅读(596) 评论(0) 推荐(0) 编辑
摘要:Hbase默认建表是只有一个分区的,开始的时候所有的数据都会查询这个分区,当这个分区达到一定大小的时候,就会进行做split操作; 因此为了确保regionserver的稳定和高效,应该尽量避免region分裂和热点的问题; 那么有的同学在做预分区的时候,可能是按照: 1): 通过Hbase提供的a 阅读全文
posted @ 2019-04-27 21:13 niutao 阅读(1247) 评论(0) 推荐(0) 编辑
摘要:类似Uber,需要处理处不同时间段的不同地区的订单热点区域,帮助进行网约车的及时调度处理 每个成交单Order中,都会有订单上车位置的起始经纬度:open_lat , open_lng 那么在这个时间段内,哪些地区是高密集订单区域,好进行及时的调度,所以需要得到不同地区的热力图 初期想法是基于经纬度 阅读全文
posted @ 2019-04-27 20:52 niutao 阅读(1142) 评论(0) 推荐(0) 编辑
摘要:版本:自己编译的hbase-1.2.0-cdh5.14.0 默认情况下,Hbase不开启snappy压缩 , 所以在hbase的lib/native目录下什么也没有(我的前提是执行hadoop checknative可以看到hadoop是支持snappy的) 第一步: 需要将snappy-java- 阅读全文
posted @ 2019-04-27 16:42 niutao 阅读(2409) 评论(0) 推荐(0) 编辑
摘要:需求: 每分钟执行一次程序,将处理后的数据写入mongodb 最初做法: 1):写crontab没有响应,于是打算通过shell脚本的while true来执行 当时sb,没控制时间内,而且我还是用nohup XXXX.sh 2>&1 & 结果就是,几乎每一个瞬间启动一个jar,服务器内存瞬间沾满 阅读全文
posted @ 2019-04-27 14:18 niutao 阅读(875) 评论(0) 推荐(0) 编辑
摘要:数据总数:746条数据 因为后面需要进行算法合成,而且spark目前对这种算法支持并不好,因此采用代码编写,所以在查询hbase的过程中采用的是java直接查询, 但是为了加快查询速度,我尽可能的使用了过滤器 1:初期Hbase的rowkey组合:时间+"_"+订单id 查询思路: 1:能快速检索, 阅读全文
posted @ 2019-04-18 23:29 niutao 阅读(745) 评论(0) 推荐(0) 编辑
摘要:反射的包名:reflect 步骤: 1:根据传入函数获取函数的指针 2:通过指针获取函数名称 代码: func apply(op func(int , int) int , a,b int) int{ pointer:= reflect.ValueOf(op).Pointer() funcName 阅读全文
posted @ 2019-04-13 17:49 niutao 阅读(872) 评论(0) 推荐(1) 编辑
摘要:在写Hfile的时候 ,如果一个family下超过了默认的32个hfile,就会报如下错误: ERROR mapreduce.LoadIncrementalHFiles: Trying to load more than 32 hfiles to family d of region with st 阅读全文
posted @ 2019-04-10 13:29 niutao 阅读(2292) 评论(0) 推荐(0) 编辑