随笔分类 -  Hadoop

Hadoop
数据湖实施指导原则
摘要: 阅读全文

posted @ 2021-03-04 13:02 rigidwang 阅读(107) 评论(0) 推荐(0) 编辑

Elaticsearch与关系型数据库对比
摘要: 阅读全文

posted @ 2021-03-03 10:02 rigidwang 阅读(39) 评论(0) 推荐(0) 编辑

基于hdfs文件创建hive表
摘要:create table customer row format SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'stored as inputformat 'org.apache.hadoop.hive.ql.io.avro.AvroCont 阅读全文

posted @ 2021-03-03 00:19 rigidwang 阅读(536) 评论(0) 推荐(0) 编辑

数据存储层和Lambda批处理层架构
摘要: 阅读全文

posted @ 2021-03-02 12:39 rigidwang 阅读(63) 评论(0) 推荐(0) 编辑

kafka 配置事项
摘要:https://www.cnblogs.com/xuliang666/p/11871389.html 阅读全文

posted @ 2021-02-24 08:03 rigidwang 阅读(32) 评论(0) 推荐(0) 编辑

lambda架构
摘要:sqoop:处理批量数据 flume:处理流式数据 阅读全文

posted @ 2021-02-22 14:00 rigidwang 阅读(26) 评论(0) 推荐(0) 编辑

hbase hadoop版本
摘要:https://hbase.apache.org/book.html#configuration 阅读全文

posted @ 2021-02-21 21:23 rigidwang 阅读(37) 评论(0) 推荐(0) 编辑

hbase基本命令
摘要:disable 'scores' drop 'scores' 阅读全文

posted @ 2016-04-05 10:14 rigidwang 阅读(173) 评论(0) 推荐(0) 编辑

SQuirreL 连接 hive
摘要:软件安装版本: hadoop-2.5.1 hbase-0.98.12.1-hadoop2 apache-hive-1.2.1-bin SQuirreL SQL Client3.7 集成步骤: 1. SQuirreL 中添加Drivers,将hive_home/lib 下所有jar 添加至 extra 阅读全文

posted @ 2016-04-04 16:44 rigidwang 阅读(319) 评论(0) 推荐(0) 编辑

hbase体系结构以及说明
摘要:HMaster:数据库总控节点HRegionServer:通常是一个物理节点即一台单独的计算机,一个HRegionServer包含多个HRegion,假如一个表有一亿行数据,那么可能会分散在一个RegionServer不同的Region中Store:每一个列族是一个store,当插入数据时候现在Me... 阅读全文

posted @ 2014-07-16 16:24 rigidwang 阅读(518) 评论(0) 推荐(0) 编辑

hadoop编程模型
摘要:1. 拷贝数据将一个超大的数据文件拷贝到hadoop集群中,hdfs将其分割成多个数据块,然后再把每一个数据块放到不同的节点里面。2. map函数提交一个map函数,此map函数可以被jobchacker进程分配到多个节点里面去运行,对分在那个节点所在机器里面的数据进行map。3. shuffe预处... 阅读全文

posted @ 2014-07-15 13:40 rigidwang 阅读(179) 评论(0) 推荐(0) 编辑

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

统计

点击右上角即可分享
微信分享提示