博客园 首页 私信博主 显示目录 隐藏目录 管理 动画
上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 35 下一页
摘要: Hadoop 底层使用 MapReduce 计算架构,只有 map 和 reduce 两种操作,表达能力比较欠缺,而且在 MR 过程中会重复的读写 hdfs,造成大量的磁盘 io 读写操作,所以适合高时延环境下批处理计算的应用; Spark 是基于内存的分布式计算架构,提供更加丰富的数据集操作类型, 阅读全文
posted @ 2022-05-31 16:48 CHANG_09 阅读(177) 评论(0) 推荐(0) 编辑
摘要: (1) 数据存储及压缩。 针对hive中表的存储格式通常有orc和parquet,压缩格式一般使用snappy。 相比与textfile格式表,orc 占有更少的存储。 因为 hive 底层使用 MR 计算架构,数据流是 hdfs 到磁盘再到hdfs,而且会有很多次, 所以使用 orc 数据格式和 阅读全文
posted @ 2022-05-31 16:45 CHANG_09 阅读(168) 评论(0) 推荐(0) 编辑
摘要: HDFS 上传文件和读文件的流程 (1)由客户端 Client 向 NameNode 节点发出请求; (2)NameNode 向 Client 返回可以存数据的 DataNode 列表,这里遵循机架感应原则(把副本分别放在不同的机架,甚至不同的数据中心); (3)客户端首先根据返回的信息先将文件分块 阅读全文
posted @ 2022-05-31 16:25 CHANG_09 阅读(118) 评论(0) 推荐(0) 编辑
摘要: hiveSql 有做优化 阅读全文
posted @ 2022-05-29 21:54 CHANG_09 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 如果是非空,那么清洗哪个字段为非空?为什么? hive的自定义函数(里面有对数据进行过滤)UDF和UDAF 阅读全文
posted @ 2022-05-29 21:34 CHANG_09 阅读(126) 评论(0) 推荐(0) 编辑
摘要: hdfs + yarnlzo 压缩 : 减少磁盘空间占用tez 引擎 : 不是只有MR,更灵活,运算更快列式存储 : 行转列 text -> parquet sql explain : join where 先 where 后 join hql -> mr : 解析 编译 优化 执行 阅读全文
posted @ 2022-05-29 21:11 CHANG_09 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 作用 Zookeeper作用包括存储数据(文件系统)和监听(监听通知机制) 优点 1)分布式协调过程简单 2)同步:zk高度同步,这意味着服务器进程之间既存在互斥又存在合作,同步有助于Apache HBase进行配置管理。 3)有序消息:zk跟踪一个数字,表示每个更新的顺序,保证消息有序 4)序列化 阅读全文
posted @ 2022-05-29 20:17 CHANG_09 阅读(1035) 评论(0) 推荐(0) 编辑
摘要: ​ Source到Channel是Put事务 ​ Channel到Sink是Take事务 doPut 先将放入 putlist commit 成功 才更新 offset 失败回滚 doTake 同理 ​ Taildir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记 阅读全文
posted @ 2022-05-29 20:02 CHANG_09 阅读(54) 评论(0) 推荐(0) 编辑
摘要: (1)拦截器注意事项项目中自定义了:ETL拦截器和 区分类型 拦截器。 采用两个拦截器 优点,模块化开发 和 可移植性; 缺点,性能会低一些 (2)自定义拦截器步骤a)实现 Interceptor b)重写四个方法 initialize 初始化 public Event intercept(Even 阅读全文
posted @ 2022-05-29 20:01 CHANG_09 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 消息队列 主动推送消息 给对应订阅的消费者, 不好之处就是不知道 消费者 处理的速度如何,还有就是 消费者 没办法控制消息发送的速度。 消费者 主动拉 取消息队列中的数据,不好之处是 消费者 因为需要经常去询问是否有数据 需要一直有一个循环去询问, 建议在循环里面增加sleep,如果没有拉取到数据就 阅读全文
posted @ 2022-05-29 19:59 CHANG_09 阅读(596) 评论(0) 推荐(0) 编辑
上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 35 下一页