摘要:create table customer row format SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'stored as inputformat 'org.apache.hadoop.hive.ql.io.avro.AvroCont
阅读全文
摘要:https://www.cnblogs.com/xuliang666/p/11871389.html
阅读全文
摘要:sqoop:处理批量数据 flume:处理流式数据
阅读全文
摘要:https://hbase.apache.org/book.html#configuration
阅读全文
摘要:disable 'scores' drop 'scores'
阅读全文
摘要:软件安装版本: hadoop-2.5.1 hbase-0.98.12.1-hadoop2 apache-hive-1.2.1-bin SQuirreL SQL Client3.7 集成步骤: 1. SQuirreL 中添加Drivers,将hive_home/lib 下所有jar 添加至 extra
阅读全文
摘要:HMaster:数据库总控节点HRegionServer:通常是一个物理节点即一台单独的计算机,一个HRegionServer包含多个HRegion,假如一个表有一亿行数据,那么可能会分散在一个RegionServer不同的Region中Store:每一个列族是一个store,当插入数据时候现在Me...
阅读全文
摘要:1. 拷贝数据将一个超大的数据文件拷贝到hadoop集群中,hdfs将其分割成多个数据块,然后再把每一个数据块放到不同的节点里面。2. map函数提交一个map函数,此map函数可以被jobchacker进程分配到多个节点里面去运行,对分在那个节点所在机器里面的数据进行map。3. shuffe预处...
阅读全文