随笔分类 -  大数据

Hdfs
摘要:读写流程 client 向 namenode 申请读写请求,检查文件是否存在,是否有权限,校验通过则开始写入,先将写入操作记录到editLog然后返回输出流对象! namenode返回可写节点列表和data,发送到client最近的datanode;然后client建立pipeline管道,clie 阅读全文

posted @ 2022-03-01 10:25 爱老虎哟 阅读(28) 评论(0) 推荐(0) 编辑

Flink实时计算
摘要:flink计算过程:Source->Transform->Sink 整体设计 消费kafka数据,解析、计算后,分两路输出 1 归档(HDFS) 2 业务应用(PG) 代码实现 消费kafka:FlinkKafkaConsumer<byte[]> kafkaConsumer 解 析: 按照协议、结构 阅读全文

posted @ 2022-02-15 14:54 爱老虎哟 阅读(803) 评论(0) 推荐(0) 编辑

MapReduce
摘要:1 是什么? 海量、离线数据里批处理、分布式计算引擎 2 编程组件? InputFormat类:分割成多个splits和每行怎么解析。 Mapper类:对输入的每对<key,value>生成中间结果。 Combiner类:在map端,对相同的key进行合并。 Partitioner类:在shuffl 阅读全文

posted @ 2022-02-15 11:44 爱老虎哟 阅读(62) 评论(0) 推荐(0) 编辑

Hbase
摘要:截图来自 hbase权威指南 1 Hbase啥? 高可用的列式存储数据库 2 上图各块都有啥功能? API:api是对外暴露操作HBase的,针对两类 (1 数据 2 表 )的增删改查(前台) Master:regionServer负载和操作,元数据得管理(建表,列簇信息)(总经理), Region 阅读全文

posted @ 2022-02-14 15:07 爱老虎哟 阅读(50) 评论(0) 推荐(0) 编辑

Flink GlobalWindow
摘要:需求 flink读取hdfs写入clickhouse 设想 flink读取hdfs;数据结构化;拼接SQL;JDBC连接CLICKHOUSE;批量入库 难点 保证数据全部写入(考虑过timewindow 和 countwindow:因为文件大小和程序执行时长是未知的,所以会丢失数据) 技术实现 自定 阅读全文

posted @ 2022-02-14 14:44 爱老虎哟 阅读(203) 评论(0) 推荐(0) 编辑

presto查询调优
摘要:调优维度: SQL presto参数配置(内存,并发,调度) 实 现: SQL : 1 不要使用select * 2 approx_distinct(x)代替count(distinct x) 3 join 大表放在前面:presto左侧大表拆分到各个节点,右表数据发送到大表各个节点上进行join 阅读全文

posted @ 2022-02-14 14:44 爱老虎哟 阅读(99) 评论(0) 推荐(0) 编辑

FLINK --- 写HDFS
摘要:HADOOP都是使用StreamingFileSink,那么有什么区别?: 区别主要在写文件策略: 2.6及以前: OnCheckpointRollingPolicy 2.7: OnCheckpointRollingPolicy和 DefaultRollingPolicy 为什么2.7以前的版本不支 阅读全文

posted @ 2021-09-30 11:58 爱老虎哟 阅读(321) 评论(0) 推荐(0) 编辑

基于presto的大数据查询
摘要: 阅读全文

posted @ 2021-04-07 15:02 爱老虎哟 阅读(97) 评论(0) 推荐(0) 编辑

Flink初识
摘要:Flink是什么? Flink是一个以Java及Scala作为开发语言的开源大数据项目,代码开源在github上,并使用 maven来编译和构建项目。其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序。一句话总结是一个流式计算的maven工程。 阅读全文

posted @ 2019-07-18 10:46 爱老虎哟 阅读(416) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示