大数据 - 随笔分类 - 爱老虎哟

Hdfs

摘要：读写流程 client 向 namenode 申请读写请求，检查文件是否存在，是否有权限，校验通过则开始写入，先将写入操作记录到editLog然后返回输出流对象! namenode返回可写节点列表和data，发送到client最近的datanode；然后client建立pipeline管道，clie 阅读全文

posted @ 2022-03-01 10:25 爱老虎哟阅读(45) 评论(0) 推荐(0)

Flink实时计算

摘要：flink计算过程：Source->Transform->Sink 整体设计消费kafka数据，解析、计算后，分两路输出 1 归档（HDFS） 2 业务应用（PG）代码实现消费kafka：FlinkKafkaConsumer<byte[]> kafkaConsumer 解析：按照协议、结构阅读全文

posted @ 2022-02-15 14:54 爱老虎哟阅读(822) 评论(0) 推荐(0)

MapReduce

摘要：1 是什么？海量、离线数据里批处理、分布式计算引擎 2 编程组件？ InputFormat类：分割成多个splits和每行怎么解析。 Mapper类：对输入的每对<key,value>生成中间结果。 Combiner类：在map端，对相同的key进行合并。 Partitioner类：在shuffl 阅读全文

posted @ 2022-02-15 11:44 爱老虎哟阅读(80) 评论(0) 推荐(0)

Hbase

摘要：截图来自 hbase权威指南 1 Hbase啥？高可用的列式存储数据库 2 上图各块都有啥功能？ API：api是对外暴露操作HBase的，针对两类（1 数据 2 表）的增删改查（前台） Master：regionServer负载和操作，元数据得管理（建表，列簇信息）（总经理）， Region 阅读全文

posted @ 2022-02-14 15:07 爱老虎哟阅读(68) 评论(0) 推荐(0)

Flink GlobalWindow

摘要：需求 flink读取hdfs写入clickhouse 设想 flink读取hdfs；数据结构化；拼接SQL；JDBC连接CLICKHOUSE；批量入库难点保证数据全部写入（考虑过timewindow 和 countwindow：因为文件大小和程序执行时长是未知的，所以会丢失数据）技术实现自定阅读全文

posted @ 2022-02-14 14:44 爱老虎哟阅读(215) 评论(0) 推荐(0)

presto查询调优

摘要：调优维度： SQL presto参数配置（内存，并发，调度）实现： SQL ： 1 不要使用select * 2 approx_distinct(x)代替count(distinct x) 3 join 大表放在前面：presto左侧大表拆分到各个节点，右表数据发送到大表各个节点上进行join 阅读全文

posted @ 2022-02-14 14:44 爱老虎哟阅读(131) 评论(0) 推荐(0)

FLINK --- 写HDFS

摘要：HADOOP都是使用StreamingFileSink，那么有什么区别？：区别主要在写文件策略： 2.6及以前： OnCheckpointRollingPolicy 2.7： OnCheckpointRollingPolicy和 DefaultRollingPolicy 为什么2.7以前的版本不支阅读全文

posted @ 2021-09-30 11:58 爱老虎哟阅读(341) 评论(0) 推荐(0)

基于presto的大数据查询

摘要：阅读全文

posted @ 2021-04-07 15:02 爱老虎哟阅读(108) 评论(0) 推荐(0)

Flink初识

摘要：Flink是什么？ Flink是一个以Java及Scala作为开发语言的开源大数据项目，代码开源在github上，并使用 maven来编译和构建项目。其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序。一句话总结是一个流式计算的maven工程。阅读全文

posted @ 2019-07-18 10:46 爱老虎哟阅读(434) 评论(0) 推荐(0)

随笔分类 - 大数据