大数据魅力 - 随笔分类 - wzyy

Flink Watermark示例

摘要：Watermark简介在 Apache Flink 中，水印（Watermark）是一种用于处理事件时间（Event Time）流数据的机制。它代表了流处理系统中对事件时间进度的理解，用来标识数据流中的时间点，从而帮助确定何时窗口应该关闭并触发计算。水印的作用控制窗口计算：Flink 使用水印阅读全文

posted @ 2024-12-20 18:29 wzyy 阅读(26) 评论(0) 推荐(0) 编辑

Hadoop：Yarn设计原理

摘要：一、Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container组成，之间通过RPC通讯 1、ResourceManager：是一个全局的资源管理器，负责整个系统的资源管理和分配。它主要由两个组件构成：调度器（Sche 阅读全文

posted @ 2023-01-31 15:42 wzyy 阅读(316) 评论(0) 推荐(0) 编辑

Spark架构设计及常用算子

摘要：一、架构设计 Driver根据用户代码构建计算流图，拆解出分布式任务并分发到 Executors 中去；每个Executors收到任务，然后处理这个 RDD 的一个数据分片子集 DAGScheduler根据用户代码构建 DAG；以 Shuffle 为边界切割 Stages；基于 Stages 创建阅读全文

posted @ 2022-11-04 15:38 wzyy 阅读(241) 评论(0) 推荐(1) 编辑

浅谈MySQL、Hadoop、BigTable、Clickhouse数据读写机制

摘要：个人理解，欢迎指正数据库引擎写数据读数据补充 MySql InnoDB：支持事务，高速读写性能一般 Myisam：不支持事务，高速读写性能好以InnoDB更新一条记录为例 1、B+Tree搜索找到这行记录，如果数据页在内存直接返回给【执行器】，否则从磁盘读入内存再返回 2、【执行器】更新阅读全文

posted @ 2022-10-11 17:22 wzyy 阅读(333) 评论(0) 推荐(0) 编辑

元数据治理利器 - Apache Atlas

摘要：一、功能简介 Atlas 是一组可扩展的核心基础治理服务，使企业能够高效地满足其在 Hadoop 中的合规性要求，并允许与整个企业数据生态系统集成。Apache Atlas 为组织提供开放的元数据管理和治理功能，以构建其数据资产的目录，对这些资产进行分类和治理，并为数据科学家、分析师和数据治理团队提阅读全文

posted @ 2022-08-16 16:51 wzyy 阅读(1648) 评论(0) 推荐(1) 编辑

Atlas启动报错：Caused by: org.apache.solr.common.SolrException: Cannot connect to cluster at xxx.com:2181: cluster not found/not ready

摘要：Atlas启动时报以下错误，看情况是atlas没有在zk上找到solr注册信息；然后发现solr启动命令bin/solr start -force会默认使用内置的zk，不会往公共zk上面注册；解决方案是solr启动时手动指定一下zk地址即可：bin/solr start -p 8983 -z lo 阅读全文

posted @ 2022-08-08 14:11 wzyy 阅读(691) 评论(0) 推荐(0) 编辑

Spark: Cluster Computing with Working Sets

摘要：本文是对spark作者早期论文《Spark: Cluster Computing with Working Sets》做的翻译（主要借助谷歌翻译），文章比较理论，阅读起来稍微有些吃力，但读完之后总算是对spark有了一个初步的认知，对于后续学习使用spark还是很有帮助的。摘要 MapReduce 阅读全文

posted @ 2022-08-01 14:35 wzyy 阅读(805) 评论(1) 推荐(0) 编辑

MapReduce Shuffle机制

摘要：Mapper端：每个mapTask有一个环形缓冲区，用于存储map任务的输出。默认大小100M(io.sort.mb属性)，一旦达到阀值0.8（io.sort.spill.percent），一个后台线程把内容写到（spill）磁盘的指定目录（mapred.local.dir）下的新建的一个溢写文件。阅读全文

posted @ 2022-03-26 18:14 wzyy 阅读(49) 评论(0) 推荐(0) 编辑

Hive与Clickhouse对比

摘要：个人理解，欢迎指正对比指标 Hive Clickhouse 元数据管理元数据存MySQL，通过HiveMetaStore管理每个Shard自己管理数据存储 HDFS 本地磁盘架构设计 MR架构 MPP架构资源消耗运行时申请资源常驻进程线程模式单线程多线程写数据过程可以直接附阅读全文

posted @ 2022-03-23 18:12 wzyy 阅读(2629) 评论(1) 推荐(0) 编辑

Hadoop：HDFS设计原理

摘要：一、HDFS组成结构 1、NameNode 相当于Master，主要存储文件的元数据（文件名、目录结构、文件属性等），以及每个文件的块列表和块所在的DataNode。配置副本策略，管理数据库映射信息，处理客户端读写请求等。 2、DataNode 相当于Slave，主要用于存储文件块数据，执行数据块阅读全文

posted @ 2022-01-09 18:28 wzyy 阅读(131) 评论(0) 推荐(0) 编辑

Flink初体验-批处理与流处理

摘要：一、环境准备本机环境：jdk11、scala2.12、maven3.6 新建一个maven项目，pom如下 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns 阅读全文

posted @ 2020-10-19 14:36 wzyy 阅读(968) 评论(0) 推荐(0) 编辑

Zookeeper知识点

摘要：一、什么是二阶段提交（2pc）阶段1：提交事务请求协调者向所有参与者发送事务内容。参与者执行事务操作，并记录undo、redo日志，执行成功返回yes，否则返回no。阶段2：执行事务提交 1.协调者从所有参与者获得是反馈都是yes时，就会向所有参与者发送commit请求。参与者执行事务提交操作阅读全文

posted @ 2020-09-30 10:48 wzyy 阅读(342) 评论(0) 推荐(0) 编辑

Kafka实战

摘要：一、topic(主题) partition(分区) offset(位移) 创建toipc bin/kafka-topics.sh --zookeeper localhost:2181 --create --topic test-topic --partitions 3 --replication-f 阅读全文

posted @ 2020-09-21 19:45 wzyy 阅读(171) 评论(0) 推荐(0) 编辑

分布式锁-基于ZK和Redis实现

摘要：一、基于zookeeper实现分布式锁 1.1 Zookeeper的常用接口 package register; import java.util.List; import java.util.concurrent.CountDownLatch; import org.apache.zookeepe 阅读全文

posted @ 2019-04-25 16:23 wzyy 阅读(1000) 评论(0) 推荐(0) 编辑

hbase-0.20.6/bin/hbase-daemon.sh: Permission denied

摘要：部署hbase全分布式时，出现以下错误：主机的hbase启动了，但是从机的没启动[root@centos7-01 my.shells]# start-hbase.sh Java HotSpot(TM) 64-Bit Server VM warning: Using incremental CMS is deprecated and will likely be removed in a fut... 阅读全文

posted @ 2018-06-29 14:37 wzyy 阅读(581) 评论(0) 推荐(1) 编辑

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

摘要：原因是hadoop集群没有启动（注意端口号9000）阅读全文

posted @ 2018-06-27 11:52 wzyy 阅读(14162) 评论(1) 推荐(1) 编辑

java.net.NoRouteToHostException: No route to host

摘要：centos7环境下，启动hadoop集群时，在master节点启动集群，发现master节点的NameNode、SecondaryNameNode、JobTracker全部启动了，但是所有的slaver节点的DataNode、TaskTracker没有启动，查看某台slaver节点logs/had 阅读全文

posted @ 2018-06-10 17:09 wzyy 阅读(12174) 评论(0) 推荐(0) 编辑

原生MapReduce开发样例

摘要：一、需求二、编码 1.导入jar包 2.编码 2.1Map编写 2.2Reduce编写 2.3运行类编写 3.打包三、调试 1. java本地运行 2. 在hadoop hdfs上运行 2.1 data文件上传到hdfs 2.2 运行 2.3 查看结果阅读全文

posted @ 2018-06-06 13:30 wzyy 阅读(1148) 评论(0) 推荐(0) 编辑

java对Hbase的基本操作

摘要：1.新建一个普通java项目，把${hbase}/lib/目录下的jar包全部导入 2.导出jar文件如下 3.运行注意：需要先把jar文件导入到hbase路径里去，然后运行相应的类 4.查看数据库附加： package com.wzy.hbase; import org.apache.hado 阅读全文

posted @ 2018-03-18 13:35 wzyy 阅读(1572) 评论(0) 推荐(0) 编辑

hadoop安装

摘要：apache开源软件下载地址：http://archive.apache.org/dist/ 环境 RedHad Linux9.0 java6 hadoop1.2.1 hadoop下载地址：http://mirror.bit.edu.cn/apache/hadoop/common/ 版本有很多，我使阅读全文

posted @ 2016-10-21 20:34 wzyy 阅读(195) 评论(0) 推荐(0) 编辑

日常学习，随手一记

随笔分类 - 大数据魅力

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论