随笔分类 -  hadoop

top-N 抽样
摘要:1, 使用hive标记random:(如果是mr,就自己标记random值) use ps; set mapred.job.priority=VERY_HIGH; set mapred.job.map.capcity=300; set mapred.reduce.tasks=200; insert 阅读全文

posted @ 2016-02-16 13:16 雨渐渐 阅读(211) 评论(0) 推荐(0) 编辑

hadoop 动态调整mapred参数
摘要:bin/hadoop job -set-reduce-capacity job_20151126032920_1142443 1000 调成map数bin/hadoop job -set-priority job_20151126032920_1160549 VERY_HIGH ... 阅读全文

posted @ 2015-12-29 11:09 雨渐渐 阅读(1492) 评论(0) 推荐(0) 编辑

HIVE Transform using 用法
摘要:select TRANSFORM(*, *, *)using 'python filter.py'as (*, *, *)from t_1HIVE支持pipe操作,将select出来的字段,用我们的脚本进行“操作”1, 分隔符为 \t 并没有采用hive原有的分隔符 \x01 之类的。 阅读全文

posted @ 2015-09-28 14:51 雨渐渐 阅读(1912) 评论(0) 推荐(0) 编辑

hadoop 蓄水池抽样 分布式抽样
摘要:#!/usr/bin/env python# -*- coding=utf8 -*-import sysimport osimport random#input split 1565 #>>> 3000000/1565.0#1916.932907348243#2000K = 2000pool = [... 阅读全文

posted @ 2015-08-31 23:12 雨渐渐 阅读(404) 评论(0) 推荐(0) 编辑

hadoop 数据采样
摘要:http://www.cnblogs.com/xuxm2007/archive/2012/03/04/2379143.html原文地址如上:关于Hadoop中的采样器1.为什么要使用采样器在这个网页上有一段描述比较靠谱 http://www.philippeadjiman.com/blog/2009... 阅读全文

posted @ 2015-08-31 17:45 雨渐渐 阅读(774) 评论(0) 推荐(0) 编辑

python 链接hive
摘要:http://blog.csdn.net/xubcing/article/details/8350287http://www.centoscn.com/python/2014/0921/3801.html 阅读全文

posted @ 2015-07-27 13:49 雨渐渐 阅读(200) 评论(0) 推荐(0) 编辑

hadoop 技巧
摘要:通过--config指定不同的集群bin/hadoop --config ./conf_time/ dfs -ls /user/rd/*/for_*/ip_table/output/rd下是都读写权限的组合多个文件hadoop fs -getmerge /user/hadoop/output loc... 阅读全文

posted @ 2015-05-28 19:25 雨渐渐 阅读(114) 评论(0) 推荐(0) 编辑

Hbase region 某个regionserver挂掉后的处理
摘要:ALTER TABLESPACE TB_USER_4K EXTEND(FILE '/data/vd5/TB_USER_4K.tbs' 10240)tail -f /var/cloud/logs/hbase/hbase-???-regionserver-d164.logtail -f /var/clo... 阅读全文

posted @ 2014-11-27 19:47 雨渐渐 阅读(3581) 评论(0) 推荐(0) 编辑

Hbase 常用shell命令
摘要:进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)> w... 阅读全文

posted @ 2014-11-18 12:27 雨渐渐 阅读(4415) 评论(0) 推荐(1) 编辑

hbase 0.96 java 示例
摘要:import java.util.ArrayList;import java.util.List; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.ha... 阅读全文

posted @ 2014-09-22 17:40 雨渐渐 阅读(350) 评论(0) 推荐(0) 编辑

Hbase 0.96 比 hbase 0.94的改变
摘要:转载:http://blog.csdn.net/hxpjava1/article/details/20043703环境:hadoop:hadoop-2.2.0hbase:hbase-0.96.01.org.apache.hadoop.hbase.client.Put 取消了无参的构造方法 Put... 阅读全文

posted @ 2014-09-19 18:11 雨渐渐 阅读(507) 评论(0) 推荐(0) 编辑

hadoop 存储空间满了
摘要:2014-09-09 17:25:44,040 WARN mapred.LocalJobRunner - job_local_0001org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid lo... 阅读全文

posted @ 2014-09-09 18:00 雨渐渐 阅读(589) 评论(0) 推荐(0) 编辑

hbase 取多个版本数据
摘要:http://jiajun.iteye.com/blog/945358HBase如何存取多个版本的值?废话少说,一般情况下使用Put的这个方法保存一个版本:Java代码 /***AddthespecifiedcolumnandvaluetothisPutoperation.*@paramfamily... 阅读全文

posted @ 2014-09-03 11:17 雨渐渐 阅读(1798) 评论(0) 推荐(0) 编辑

hbase rowkey设计的注意事项
摘要:1 充分利用有序性1.1 如果要scan操作,且不是很频繁,可以利用rowkey的有序性将需要一起扫描的数据放到一起。例如直接用时间戳。这样就可以按时间scan了。这个只要是简单的全表扫描都行。1.2 同样是scan,还可以利用rowkey的有序性实现数据本地化,设同一类别的数据需要一起扫描,那就可... 阅读全文

posted @ 2014-05-04 09:36 雨渐渐 阅读(897) 评论(0) 推荐(0) 编辑

Hbase热点问题
摘要:需求描述:扫描(查询)某个区间---》列用hbase多节点的资源,分布式扫描,加快速度==》 然后拼接到一起 如何打散数据 冠字号逆序,hash并不一定数据连续就会造成热点,这个是由数据访问模式决定的。ex:时间作为rowkey,但查询经常按一个时间段来查询=====》 时间作为rowke... 阅读全文

posted @ 2014-04-28 15:38 雨渐渐 阅读(5223) 评论(0) 推荐(0) 编辑

OpenTSDB案例总结
摘要:加宽行可增加扫描速度采用组合rowkey,利用数据本地性加快扫描少数宽行,并不比多数窄行节省空间 缩短Column family 和 column的名字 合并若干列。 阅读全文

posted @ 2014-04-28 14:04 雨渐渐 阅读(502) 评论(0) 推荐(0) 编辑

Hbase案例分析(二)
摘要:情景1:如英文所示, 这个最基本的优势是可以根据时间范围进行扫描。但不满足我们的需求,我们要统计某一个metric(指标)在某时间范围的数据。情景2:情景2注释:将指标名称放到时间戳前面,这样会相同metric的数据会在一块,实现了一定的数据本地性,加快了扫描速度。但依然不满足需求:因为每个key在... 阅读全文

posted @ 2014-04-28 14:00 雨渐渐 阅读(188) 评论(0) 推荐(0) 编辑

Hbase案例分析(一)
摘要:Hbase应用场景:1 随机读或者写2 大数据上的高并发操作,比如每秒对PB级数据进行上千次操作。(查询,删除等操作)3 读写均是非常简单的操作,比如没有join操作Hbase Schema设计rowkey是设计关键OpenTSDB:基于Hbase构建分布式,可伸缩的时间序列数据库。 名词解释:时... 阅读全文

posted @ 2014-04-28 13:11 雨渐渐 阅读(712) 评论(0) 推荐(0) 编辑

Thrift 使用方法
摘要: 阅读全文

posted @ 2014-04-24 11:10 雨渐渐 阅读(139) 评论(0) 推荐(0) 编辑

Hbase Java API程序设计步骤
摘要:http://www.it165.net/admin/html/201407/3390.html步骤1:创建一个Configuration对象 包含了客户端链接Hbase服务所需的全部信息: zookeeper位置(我们只有链接到zookeeper才能与hbase通信,master仅负责负... 阅读全文

posted @ 2014-04-24 11:05 雨渐渐 阅读(801) 评论(0) 推荐(0) 编辑

导航