上一页 1 2 3 4 5 6 7 8 9 10 ··· 18 下一页
摘要: 面试要点 flume是分布式日志收集系统 flume的event event将传输的数据进行封装,是flume传输数据的基本单位,也是事务的基本单位。包括event header、event body、event 信息。 flume的agent agent本身就是一个java进程,包含三个组件:so 阅读全文
posted @ 2021-04-12 16:01 再见傅里叶 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 1、行列转换 行转列:collect_set/collect_list 列转行: select t1.*, t2.col3_newfrom (select 'a' as col1, 'b' as col2, '1,2,3' as col3union allselect 'c' as col1, 'd 阅读全文
posted @ 2021-04-06 10:35 再见傅里叶 阅读(88) 评论(0) 推荐(0) 编辑
摘要: State一般指一个具体的task/operator的状态。而Checkpoint则表示了一个Flink Job,在一个特定时刻的一份全局状态快照,即包含了所有task/operator的状态。 保存机制 StateBackend(状态后端) ,默认情况下,State 会保存在 TaskManage 阅读全文
posted @ 2021-03-11 17:53 再见傅里叶 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 1. 简单流程概述 A. 流程描述 a. producer先从zookeeper的"/brokers/.../state"节点找到该partition的leader b. producer将消息发送给该leader c. leader将消息写入到本地的log d. follower从leader拉取 阅读全文
posted @ 2021-03-11 14:23 再见傅里叶 阅读(1239) 评论(0) 推荐(0) 编辑
摘要: https://zhuanlan.zhihu.com/p/91539644 实际业务中一般采用多级缓存,本地缓存只保存访问频率最高的部分热点数据,其他的热点数据放在分布式缓存中。 阅读全文
posted @ 2021-02-23 08:57 再见傅里叶 阅读(37) 评论(0) 推荐(0) 编辑
摘要: https://www.jianshu.com/p/835ec2d4c170 “零拷贝技术”只用将磁盘文件的数据复制到页面缓存中一次,然后将数据从页面缓存直接发送到网络中(发送给不同的订阅者时,都可以使用同一个页面缓存),避免了重复复制操作。 如果有10个消费者,传统方式下,数据复制次数为4*10= 阅读全文
posted @ 2020-05-09 09:43 再见傅里叶 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 一、安装 一般的命令可以直接使用yum安装,但是sar和mpstat命令这两个命令都是在sysstat包里 sudo yum install sysstat。 首次运行sar命令报错:Cannot open /var/log/sa/sa03: No such file or directory 首次 阅读全文
posted @ 2020-04-29 14:41 再见傅里叶 阅读(848) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/qq_41772936/article/details/80380950 阅读全文
posted @ 2020-04-24 18:15 再见傅里叶 阅读(109) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/abin1129/p/11732838.html 阅读全文
posted @ 2020-04-24 18:11 再见傅里叶 阅读(436) 评论(0) 推荐(0) 编辑
摘要: HDFS / tmp目录主要用作mapreduce操作期间的临时存储。 Mapreduce工件,中间数据等将保存在该目录下。 mapreduce作业执行完成后,这些文件将自动清除。如果删除此临时文件,则可能会影响当前正在运行的mapreduce作业 阅读全文
posted @ 2020-04-24 09:24 再见傅里叶 阅读(2183) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 18 下一页