卡酷卡 - 博客园

2013年10月22日

摘要：语法join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference LEFT SEMI JOIN table_reference join_conditiontable_reference: table_factor | join_tabletable_factor: tbl_name [alias] | table_subquery al 阅读全文

posted @ 2013-10-22 15:47 卡酷卡阅读(363) 评论(0) 推荐(0)

2013年10月17日

hadoop hdfs hbase优化实例

摘要：需求描述：从hdfs中获取数据，字段url需要计算出url_type 通过进行hive的left outer join ，效率非常低。故将url的类型导入到hbase中，利用hbase快速查询的特点，结合mapreduce进行字段打标。刚开始的mapreduce程序如下： 1 package com.bonc.db; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.Path; 7 import org.a... 阅读全文

posted @ 2013-10-17 19:16 卡酷卡阅读(373) 评论(0) 推荐(0)

2013年10月16日

java list

摘要： List（[]内的内容可省略），与数组类似：实例化：List[] list = new ArrayList[]();获得集合内元素个数：list.size();添加元素：默认添加：list.add(e);指定下标添加（添加后下标后的元素向后挪一位）：list.add(index,e);删除元素：返回是否删除：list.remove(e);直接删除指定下标的元素（只删除找到的第一个相符合的元素）：list.remove(index);替换元素（替换掉指定下标的元素）：list.set(index,e);取出元素：list.get(index);清空集合：list.clear();判断集合中是否存阅读全文

posted @ 2013-10-16 23:01 卡酷卡阅读(249) 评论(0) 推荐(0)

hbase hbck

摘要： Number of Tables: 7Number of live region servers: 3Number of dead region servers: 0Number of empty REGIONINFO_QUALIFIER rows in .META.: 0ERROR: Region url_rule,dl.dict.cn,1381594437892.4ffba0dca164b918911160176a1d05a6. not deployed on any region server.Trying to fix unassigned region...ERROR: Region 阅读全文

posted @ 2013-10-16 22:18 卡酷卡阅读(722) 评论(0) 推荐(0)

HBase列族高级配置

摘要： HBase有几个高级特性，在你设计表时可以使用。这些特性不一定联系到模式或行键设计，但是它们定义了某些方面的表行为。本节我们讨论这些配置参数，以及你可以如何使用它们。1可配置的数据块大小HFile数据块大小可以在列族层次设置。这个数据块不同于之前谈到的HDFS数据块。其默认值是65,536字节，或64KB。数据块索引存储每个HFile数据块的起始键。数据块大小设置影响到数据块索引的大小。数据块越小，索引越大，从而占用更大内存空间。同时因为加载进内存的数据块更小，随机查找性能更好。但是如果你需要更好的序列扫描性能，那么一次能够加载更多HFile数据进入内存则更为合理，这意味着数据块应该设置为更大阅读全文

posted @ 2013-10-16 19:40 卡酷卡阅读(920) 评论(0) 推荐(0)

2013年10月14日

sqoop数据导出

摘要： 1、将oracle的jdbc的jar包copy到sqoop的lib目录下2、sqoop export --connect jdbc:oracle:thin:@XXXXX:1521:TMDM --username XXXX --password XXXXX --table DWA_V_D_CUST_123_IM --export-dir '/user/hive/warehouse/dwa.db/dwa_v_d_cust_123_im/day_part_id=20131012' --fields-terminated-by '|'3、注意点：表结构要一致表名要大写用阅读全文

posted @ 2013-10-14 17:07 卡酷卡阅读(304) 评论(0) 推荐(0)

2013年10月11日

hadoop常见问题

摘要： Hadoop上机作业hadoop的官方网址是？http://hadoop.apache.org/Apache基金是什么？　Apache软件基金会（也就是Apache Software Foundation，简称为ASF），是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中，所发行的软件产品都遵循Apache许可证（Apache License）。Apache Hadoop 是什么？Apache Hadoop是一个软件平台，可以让你很容易地开发和运行处理海量数据的应用。Hadoop是MapReduce的开源实现，它使用了Hadoop分布式文件系统（HDFS）。阅读全文

posted @ 2013-10-11 16:03 卡酷卡阅读(293) 评论(0) 推荐(0)

hbase数据导入

摘要： hbase数据导入：参考http://blog.csdn.net/hua840812/article/details/7414875，在把代码copy下来后，发现运行总是报错：java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.hbase.io.ImmutableBytesWritable, recieved org.apache.hadoop.io.LongWritable；原因是map的输出必须按照现有的版本来写，也就是extends Mapper要这样写，不能简单的写成extends 阅读全文

posted @ 2013-10-11 15:23 卡酷卡阅读(1370) 评论(0) 推荐(0)

2013年10月10日

linux修改ulimit参数

摘要：有如下三种修改方式：1.在/etc/rc.local 中增加一行 ulimit -SHn 655352.在/etc/profile 中增加一行 ulimit -SHn 655353.在/etc/security/limits.conf最后增加如下两行记录* soft nofile 65535* hard nofile 65535 阅读全文

posted @ 2013-10-10 14:44 卡酷卡阅读(715) 评论(0) 推荐(0)

Hive运行原理--JOIN

摘要：对于 JOIN 操作：INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid);实现过程为：Map：以 JOIN ON 条件中的列作为 Key，如果有多个列，则 Key 是这些列的组合以 JOIN 之后所关心的列作为 Value，当有多个列时，Value 是这些列的组合。在 Value 中还会包含表的 Tag 信息，用于标明此 Value 对应于哪个表。按照 Key 进行排序。Shuffle：根据 Key 的值进行 Hash，并将阅读全文

posted @ 2013-10-10 13:24 卡酷卡阅读(692) 评论(0) 推荐(0)