Hadoop - 随笔分类 - rigidwang

数据湖实施指导原则

摘要：阅读全文

posted @ 2021-03-04 13:02 rigidwang 阅读(111) 评论(0) 推荐(0)

Elaticsearch与关系型数据库对比

摘要：阅读全文

posted @ 2021-03-03 10:02 rigidwang 阅读(44) 评论(0) 推荐(0)

基于hdfs文件创建hive表

摘要：create table customer row format SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'stored as inputformat 'org.apache.hadoop.hive.ql.io.avro.AvroCont 阅读全文

posted @ 2021-03-03 00:19 rigidwang 阅读(557) 评论(0) 推荐(0)

数据存储层和Lambda批处理层架构

摘要：阅读全文

posted @ 2021-03-02 12:39 rigidwang 阅读(69) 评论(0) 推荐(0)

kafka 配置事项

摘要：https://www.cnblogs.com/xuliang666/p/11871389.html 阅读全文

posted @ 2021-02-24 08:03 rigidwang 阅读(38) 评论(0) 推荐(0)

lambda架构

摘要：sqoop：处理批量数据 flume：处理流式数据阅读全文

posted @ 2021-02-22 14:00 rigidwang 阅读(35) 评论(0) 推荐(0)

hbase hadoop版本

摘要：https://hbase.apache.org/book.html#configuration 阅读全文

posted @ 2021-02-21 21:23 rigidwang 阅读(44) 评论(0) 推荐(0)

hbase基本命令

摘要：disable 'scores' drop 'scores' 阅读全文

posted @ 2016-04-05 10:14 rigidwang 阅读(179) 评论(0) 推荐(0)

SQuirreL 连接 hive

摘要：软件安装版本： hadoop-2.5.1 hbase-0.98.12.1-hadoop2 apache-hive-1.2.1-bin SQuirreL SQL Client3.7 集成步骤： 1. SQuirreL 中添加Drivers，将hive_home/lib 下所有jar 添加至 extra 阅读全文

posted @ 2016-04-04 16:44 rigidwang 阅读(329) 评论(0) 推荐(0)

hbase体系结构以及说明

摘要：HMaster:数据库总控节点HRegionServer：通常是一个物理节点即一台单独的计算机，一个HRegionServer包含多个HRegion，假如一个表有一亿行数据，那么可能会分散在一个RegionServer不同的Region中Store：每一个列族是一个store，当插入数据时候现在Me... 阅读全文

posted @ 2014-07-16 16:24 rigidwang 阅读(538) 评论(0) 推荐(0)

hadoop编程模型

摘要：1. 拷贝数据将一个超大的数据文件拷贝到hadoop集群中，hdfs将其分割成多个数据块，然后再把每一个数据块放到不同的节点里面。2. map函数提交一个map函数，此map函数可以被jobchacker进程分配到多个节点里面去运行，对分在那个节点所在机器里面的数据进行map。3. shuffe预处... 阅读全文

posted @ 2014-07-15 13:40 rigidwang 阅读(187) 评论(0) 推荐(0)

rigidwang

随笔分类 - Hadoop

数据湖实施指导原则

Elaticsearch与关系型数据库对比

基于hdfs文件创建hive表

数据存储层和Lambda批处理层架构

kafka 配置事项

lambda架构

hbase hadoop版本

hbase基本命令

SQuirreL 连接 hive

hbase体系结构以及说明

hadoop编程模型

导航

公告