博客园 首页 私信博主 显示目录 隐藏目录 管理 动画
摘要: hiveSql 有做优化 阅读全文
posted @ 2022-05-29 21:54 CHANG_09 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 如果是非空,那么清洗哪个字段为非空?为什么? hive的自定义函数(里面有对数据进行过滤)UDF和UDAF 阅读全文
posted @ 2022-05-29 21:34 CHANG_09 阅读(126) 评论(0) 推荐(0) 编辑
摘要: hdfs + yarnlzo 压缩 : 减少磁盘空间占用tez 引擎 : 不是只有MR,更灵活,运算更快列式存储 : 行转列 text -> parquet sql explain : join where 先 where 后 join hql -> mr : 解析 编译 优化 执行 阅读全文
posted @ 2022-05-29 21:11 CHANG_09 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 作用 Zookeeper作用包括存储数据(文件系统)和监听(监听通知机制) 优点 1)分布式协调过程简单 2)同步:zk高度同步,这意味着服务器进程之间既存在互斥又存在合作,同步有助于Apache HBase进行配置管理。 3)有序消息:zk跟踪一个数字,表示每个更新的顺序,保证消息有序 4)序列化 阅读全文
posted @ 2022-05-29 20:17 CHANG_09 阅读(1035) 评论(0) 推荐(0) 编辑
摘要: ​ Source到Channel是Put事务 ​ Channel到Sink是Take事务 doPut 先将放入 putlist commit 成功 才更新 offset 失败回滚 doTake 同理 ​ Taildir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记 阅读全文
posted @ 2022-05-29 20:02 CHANG_09 阅读(54) 评论(0) 推荐(0) 编辑
摘要: (1)拦截器注意事项项目中自定义了:ETL拦截器和 区分类型 拦截器。 采用两个拦截器 优点,模块化开发 和 可移植性; 缺点,性能会低一些 (2)自定义拦截器步骤a)实现 Interceptor b)重写四个方法 initialize 初始化 public Event intercept(Even 阅读全文
posted @ 2022-05-29 20:01 CHANG_09 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 消息队列 主动推送消息 给对应订阅的消费者, 不好之处就是不知道 消费者 处理的速度如何,还有就是 消费者 没办法控制消息发送的速度。 消费者 主动拉 取消息队列中的数据,不好之处是 消费者 因为需要经常去询问是否有数据 需要一直有一个循环去询问, 建议在循环里面增加sleep,如果没有拉取到数据就 阅读全文
posted @ 2022-05-29 19:59 CHANG_09 阅读(596) 评论(0) 推荐(0) 编辑
摘要: 解析器: 解析hql 遍历抽象语法树 抽象出查询基本单位 查询块 编译器: 遍历查询块 生成操作树 (即最初的执行逻辑)优化器: 合并不必要的job,减少shuffle 生成任务树 (即最终执行逻辑)执行器: 执行任务树 阅读全文
posted @ 2022-05-29 19:50 CHANG_09 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 由CPU定时发出询问,依序询问每一个周边设备是否需要其服务,有即给予服务,服务结束后再问下一个周边,接着不断周而复始。 中断方式 和 轮询方式 的区别 中断机制不仅赋予了我处理意外情况的能力,如果我能充分发挥这个机制的妙用,就可以“同时”完成多个任务了,轮询(olling)I/O方式或程序控制I/O 阅读全文
posted @ 2022-05-29 19:42 CHANG_09 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 负载均衡是用于解决一台机器(一个进程)无法解决所有请求,多个进程一起处理的场景而产生的一种算法。同一个请求只能交给一个进程处理,可以避免数据重复。均衡分配请求可以采用: 1)轮询(round_robin); 2)随机(random)。 阅读全文
posted @ 2022-05-29 19:36 CHANG_09 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 断点续传 实现flume采集的断点续传,接着崩溃的最后采集索引继续采集;对收集过的历史文件进行备份处理; 实现flume采集的断点续传,接着崩溃的最后采集索引继续采集;对收集过的历史文件进行备份处理; 消费组ID完全一样的,这样采集到的数据才不会重复的 阅读全文
posted @ 2022-05-29 19:32 CHANG_09 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 原子性、一致性、隔离性、持久性。 通常称为 A C I D 特性。 原子性(atomicity)。一个事务是一个不可分割的工作单位,事务中包括的诸操作要么都做,要么都不做。 一致性(consistency)。事务必须是使数据库从一个一致性状态变到另一个一致性状态。一致性与原子性是密切相关的。 隔离性 阅读全文
posted @ 2022-05-29 19:23 CHANG_09 阅读(113) 评论(0) 推荐(0) 编辑
摘要: Flume是一个 分布式、可靠、和高可用 的 海量 日志采集、汇聚和 传输 的系统。 阅读全文
posted @ 2022-05-29 19:22 CHANG_09 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 其一:flume使用两个独立的事务分别负责从source到channel以及从channel到sink的事件传递,source向channel写数据时会先将数据写入临时缓冲区putlist,然后检查channel是否可以写入,如果写入成功会更新偏移量,如果不成功就回滚数据, channel到sink 阅读全文
posted @ 2022-05-29 19:20 CHANG_09 阅读(429) 评论(0) 推荐(0) 编辑
摘要: 1.小文件数量过多(例如图片)会占用批量占用namenode的内存,浪费block因为每个储存在HDFS中的文件的元数据(包括目录树,位置信息,命名空间镜像,文件编辑信息) 都会在namenode中占用150b的内存,如果namenode存储空间满了,就不能继续存储新文件了。2.如果有多小文件,会造 阅读全文
posted @ 2022-05-29 19:18 CHANG_09 阅读(344) 评论(0) 推荐(0) 编辑