随笔 - 154  文章 - 0  评论 - 18  阅读 - 24万

随笔分类 -  大数据魅力

1
Flink Watermark示例
摘要:Watermark简介 在 Apache Flink 中,水印(Watermark) 是一种用于处理事件时间(Event Time)流数据的机制。它代表了流处理系统中对事件时间进度的理解,用来标识数据流中的时间点,从而帮助确定何时窗口应该关闭并触发计算。 水印的作用控制窗口计算:Flink 使用水印 阅读全文
posted @ 2024-12-20 18:29 wzyy 阅读(26) 评论(0) 推荐(0) 编辑
Hadoop:Yarn设计原理
摘要:一、Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container组成,之间通过RPC通讯 1、ResourceManager:是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Sche 阅读全文
posted @ 2023-01-31 15:42 wzyy 阅读(316) 评论(0) 推荐(0) 编辑
Spark架构设计及常用算子
摘要:一、架构设计 Driver根据用户代码构建计算流图,拆解出分布式任务并分发到 Executors 中去;每个Executors收到任务,然后处理这个 RDD 的一个数据分片子集 DAGScheduler根据用户代码构建 DAG;以 Shuffle 为边界切割 Stages;基于 Stages 创建 阅读全文
posted @ 2022-11-04 15:38 wzyy 阅读(241) 评论(0) 推荐(1) 编辑
浅谈MySQL、Hadoop、BigTable、Clickhouse数据读写机制
摘要:个人理解,欢迎指正 数据库 引擎 写数据 读数据 补充 MySql InnoDB:支持事务,高速读写性能一般 Myisam:不支持事务,高速读写性能好 以InnoDB更新一条记录为例 1、B+Tree搜索找到这行记录,如果数据页在内存直接返回给【执行器】,否则从磁盘读入内存再返回 2、【执行器】更新 阅读全文
posted @ 2022-10-11 17:22 wzyy 阅读(333) 评论(0) 推荐(0) 编辑
元数据治理利器 - Apache Atlas
摘要:一、功能简介 Atlas 是一组可扩展的核心基础治理服务,使企业能够高效地满足其在 Hadoop 中的合规性要求,并允许与整个企业数据生态系统集成。Apache Atlas 为组织提供开放的元数据管理和治理功能,以构建其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提 阅读全文
posted @ 2022-08-16 16:51 wzyy 阅读(1648) 评论(0) 推荐(1) 编辑
Atlas启动报错:Caused by: org.apache.solr.common.SolrException: Cannot connect to cluster at xxx.com:2181: cluster not found/not ready
摘要:Atlas启动时报以下错误,看情况是atlas没有在zk上找到solr注册信息;然后发现solr启动命令bin/solr start -force会默认使用内置的zk,不会往公共zk上面注册; 解决方案是solr启动时手动指定一下zk地址即可:bin/solr start -p 8983 -z lo 阅读全文
posted @ 2022-08-08 14:11 wzyy 阅读(691) 评论(0) 推荐(0) 编辑
Spark: Cluster Computing with Working Sets
摘要:本文是对spark作者早期论文《Spark: Cluster Computing with Working Sets》做的翻译(主要借助谷歌翻译),文章比较理论,阅读起来稍微有些吃力,但读完之后总算是对spark有了一个初步的认知,对于后续学习使用spark还是很有帮助的。 摘要 MapReduce 阅读全文
posted @ 2022-08-01 14:35 wzyy 阅读(805) 评论(1) 推荐(0) 编辑
MapReduce Shuffle机制
摘要:Mapper端:每个mapTask有一个环形缓冲区,用于存储map任务的输出。默认大小100M(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢写文件。 阅读全文
posted @ 2022-03-26 18:14 wzyy 阅读(49) 评论(0) 推荐(0) 编辑
Hive与Clickhouse对比
摘要:个人理解,欢迎指正 对比指标 Hive Clickhouse 元数据管理 元数据存MySQL,通过HiveMetaStore管理 每个Shard自己管理 数据存储 HDFS 本地磁盘 架构设计 MR架构 MPP架构 资源消耗 运行时申请资源 常驻进程 线程模式 单线程 多线程 写数据过程 可以直接附 阅读全文
posted @ 2022-03-23 18:12 wzyy 阅读(2629) 评论(1) 推荐(0) 编辑
Hadoop:HDFS设计原理
摘要:一、HDFS组成结构 1、NameNode 相当于Master,主要存储文件的元数据(文件名、目录结构、文件属性等),以及每个文件的块列表和块所在的DataNode。 配置副本策略,管理数据库映射信息,处理客户端读写请求等。 2、DataNode 相当于Slave,主要用于存储文件块数据,执行数据块 阅读全文
posted @ 2022-01-09 18:28 wzyy 阅读(131) 评论(0) 推荐(0) 编辑
Flink初体验-批处理与流处理
摘要:一、环境准备 本机环境:jdk11、scala2.12、maven3.6 新建一个maven项目,pom如下 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns 阅读全文
posted @ 2020-10-19 14:36 wzyy 阅读(968) 评论(0) 推荐(0) 编辑
Zookeeper知识点
摘要:一、什么是二阶段提交(2pc) 阶段1:提交事务请求 协调者向所有参与者发送事务内容。参与者执行事务操作,并记录undo、redo日志,执行成功返回yes,否则返回no。 阶段2:执行事务提交 1.协调者从所有参与者获得是反馈都是yes时,就会向所有参与者发送commit请求。参与者执行事务提交操作 阅读全文
posted @ 2020-09-30 10:48 wzyy 阅读(342) 评论(0) 推荐(0) 编辑
Kafka实战
摘要:一、topic(主题) partition(分区) offset(位移) 创建toipc bin/kafka-topics.sh --zookeeper localhost:2181 --create --topic test-topic --partitions 3 --replication-f 阅读全文
posted @ 2020-09-21 19:45 wzyy 阅读(171) 评论(0) 推荐(0) 编辑
分布式锁-基于ZK和Redis实现
摘要:一、基于zookeeper实现分布式锁 1.1 Zookeeper的常用接口 package register; import java.util.List; import java.util.concurrent.CountDownLatch; import org.apache.zookeepe 阅读全文
posted @ 2019-04-25 16:23 wzyy 阅读(1000) 评论(0) 推荐(0) 编辑
hbase-0.20.6/bin/hbase-daemon.sh: Permission denied
摘要:部署hbase全分布式时,出现以下错误:主机的hbase启动了,但是从机的没启动[root@centos7-01 my.shells]# start-hbase.sh Java HotSpot(TM) 64-Bit Server VM warning: Using incremental CMS is deprecated and will likely be removed in a fut... 阅读全文
posted @ 2018-06-29 14:37 wzyy 阅读(581) 评论(0) 推荐(1) 编辑
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask
摘要:原因是hadoop集群没有启动(注意端口号9000) 阅读全文
posted @ 2018-06-27 11:52 wzyy 阅读(14162) 评论(1) 推荐(1) 编辑
java.net.NoRouteToHostException: No route to host
摘要:centos7环境下,启动hadoop集群时,在master节点启动集群,发现master节点的NameNode、SecondaryNameNode、JobTracker全部启动了,但是所有的slaver节点的DataNode、TaskTracker没有启动,查看某台slaver节点logs/had 阅读全文
posted @ 2018-06-10 17:09 wzyy 阅读(12174) 评论(0) 推荐(0) 编辑
原生MapReduce开发样例
摘要:一、需求 二、编码 1.导入jar包 2.编码 2.1Map编写 2.2Reduce编写 2.3运行类编写 3.打包 三、调试 1. java本地运行 2. 在hadoop hdfs上运行 2.1 data文件上传到hdfs 2.2 运行 2.3 查看结果 阅读全文
posted @ 2018-06-06 13:30 wzyy 阅读(1148) 评论(0) 推荐(0) 编辑
java对Hbase的基本操作
摘要:1.新建一个普通java项目,把${hbase}/lib/目录下的jar包全部导入 2.导出jar文件如下 3.运行 注意:需要先把jar文件导入到hbase路径里去,然后运行相应的类 4.查看数据库 附加: package com.wzy.hbase; import org.apache.hado 阅读全文
posted @ 2018-03-18 13:35 wzyy 阅读(1572) 评论(0) 推荐(0) 编辑
hadoop安装
摘要:apache开源软件下载地址:http://archive.apache.org/dist/ 环境 RedHad Linux9.0 java6 hadoop1.2.1 hadoop下载地址:http://mirror.bit.edu.cn/apache/hadoop/common/ 版本有很多,我使 阅读全文
posted @ 2016-10-21 20:34 wzyy 阅读(195) 评论(0) 推荐(0) 编辑

1

点击右上角即可分享
微信分享提示