2013年10月22日
摘要: 语法join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference LEFT SEMI JOIN table_reference join_conditiontable_reference: table_factor | join_tabletable_factor: tbl_name [alias] | table_subquery al 阅读全文
posted @ 2013-10-22 15:47 卡酷卡 阅读(362) 评论(0) 推荐(0) 编辑
  2013年10月17日
摘要: 需求描述:从hdfs中获取数据,字段url需要计算出url_type 通过进行hive的left outer join ,效率非常低。故将url的类型导入到hbase中,利用hbase快速查询的特点,结合mapreduce进行字段打标。刚开始的mapreduce程序如下: 1 package com.bonc.db; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.Path; 7 import org.a... 阅读全文
posted @ 2013-10-17 19:16 卡酷卡 阅读(368) 评论(0) 推荐(0) 编辑
  2013年10月16日
摘要: List([]内的内容可省略),与数组类似:实例化:List[] list = new ArrayList[]();获得集合内元素个数:list.size();添加元素:默认添加:list.add(e);指定下标添加(添加后下标后的元素向后挪一位):list.add(index,e);删除元素:返回是否删除:list.remove(e);直接删除指定下标的元素(只删除找到的第一个相符合的元素):list.remove(index);替换元素(替换掉指定下标的元素):list.set(index,e);取出元素:list.get(index);清空集合:list.clear();判断集合中是否存 阅读全文
posted @ 2013-10-16 23:01 卡酷卡 阅读(247) 评论(0) 推荐(0) 编辑
摘要: Number of Tables: 7Number of live region servers: 3Number of dead region servers: 0Number of empty REGIONINFO_QUALIFIER rows in .META.: 0ERROR: Region url_rule,dl.dict.cn,1381594437892.4ffba0dca164b918911160176a1d05a6. not deployed on any region server.Trying to fix unassigned region...ERROR: Region 阅读全文
posted @ 2013-10-16 22:18 卡酷卡 阅读(696) 评论(0) 推荐(0) 编辑
摘要: HBase有几个高级特性,在你设计表时可以使用。这些特性不一定联系到模式或行键设计,但是它们定义了某些方面的表行为。本节我们讨论这些配置参数,以及你可以如何使用它们。1可配置的数据块大小HFile数据块大小可以在列族层次设置。这个数据块不同于之前谈到的HDFS数据块。其默认值是65,536字节,或64KB。数据块索引存储每个HFile数据块的起始键。数据块大小设置影响到数据块索引的大小。数据块越小,索引越大,从而占用更大内存空间。同时因为加载进内存的数据块更小,随机查找性能更好。但是如果你需要更好的序列扫描性能,那么一次能够加载更多HFile数据进入内存则更为合理,这意味着数据块应该设置为更大 阅读全文
posted @ 2013-10-16 19:40 卡酷卡 阅读(900) 评论(0) 推荐(0) 编辑
  2013年10月14日
摘要: 1、将oracle的jdbc的jar包copy到sqoop的lib目录下2、sqoop export --connect jdbc:oracle:thin:@XXXXX:1521:TMDM --username XXXX --password XXXXX --table DWA_V_D_CUST_123_IM --export-dir '/user/hive/warehouse/dwa.db/dwa_v_d_cust_123_im/day_part_id=20131012' --fields-terminated-by '|'3、注意点:表结构要一致表名要大写用 阅读全文
posted @ 2013-10-14 17:07 卡酷卡 阅读(304) 评论(0) 推荐(0) 编辑
  2013年10月11日
摘要: Hadoop上机作业hadoop的官方网址是?http://hadoop.apache.org/Apache基金是什么? Apache软件基金会(也就是Apache Software Foundation,简称为ASF),是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中,所发行的软件产品都遵循Apache许可证(Apache License)。Apache Hadoop 是什么?Apache Hadoop是一个软件平台,可以让你很容易地开发和运行处理海量数据的应用。Hadoop是MapReduce的开源实现,它使用了Hadoop分布式文件系统(HDFS)。 阅读全文
posted @ 2013-10-11 16:03 卡酷卡 阅读(286) 评论(0) 推荐(0) 编辑
摘要: hbase数据导入:参考http://blog.csdn.net/hua840812/article/details/7414875,在把代码copy下来后,发现运行总是报错:java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.hbase.io.ImmutableBytesWritable, recieved org.apache.hadoop.io.LongWritable;原因是map的输出必须按照现有的版本来写,也就是extends Mapper要这样写,不能简单的写成extends 阅读全文
posted @ 2013-10-11 15:23 卡酷卡 阅读(1365) 评论(0) 推荐(0) 编辑
  2013年10月10日
摘要: 有如下三种修改方式:1.在/etc/rc.local 中增加一行 ulimit -SHn 655352.在/etc/profile 中增加一行 ulimit -SHn 655353.在/etc/security/limits.conf最后增加如下两行记录* soft nofile 65535* hard nofile 65535 阅读全文
posted @ 2013-10-10 14:44 卡酷卡 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 对于 JOIN 操作:INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid);实现过程为:Map:以 JOIN ON 条件中的列作为 Key,如果有多个列,则 Key 是这些列的组合以 JOIN 之后所关心的列作为 Value,当有多个列时,Value 是这些列的组合。在 Value 中还会包含表的 Tag 信息,用于标明此 Value 对应于哪个表。按照 Key 进行排序。Shuffle:根据 Key 的值进行 Hash,并将 阅读全文
posted @ 2013-10-10 13:24 卡酷卡 阅读(691) 评论(0) 推荐(0) 编辑