随笔分类 -  大数据

摘要:一、概述 1、背景、定义、使用场景(一次写入、不支持修改) 2、优(容错)缺点(延迟、不支持小文件、不支持修改) 3、组成架构 NameNode:Master,管理命名空间、配置策略 DataNode:slave,执行数据读写操作 Client:使用命令访问和交互 SecondNameNode:辅助 阅读全文
posted @ 2021-10-30 23:13 哥们要飞 阅读(73) 评论(0) 推荐(0) 编辑
摘要:目录: 入门(上) HDFS(中) MapReduce&Yarn(下) 优化(补充) 一、大数据概述 概念 特点:VVVV 应用场景 二、Hadoop到大数据生态 1、Hadoop生态圈、发展历史、发行版本 2、Hadoop的优势(4高) 3、Hadoop的组成(Common辅助工具+3大【计算、调 阅读全文
posted @ 2021-10-27 19:45 哥们要飞 阅读(33) 评论(0) 推荐(0) 编辑
摘要:〇、目录 一、架构 1、组成:MapReduce(数据分析)、HDFS(分布文件管理)、Yarn(资源管理器) 2、HDFS:文件读写、存储 3、MapReduce:不同语言编写mr函数,通过JobTracker调度,通过TaskTracker执行,应用:单词计数、数据去重、单表关联、多表关联。(可 阅读全文
posted @ 2021-09-25 22:29 哥们要飞 阅读(104) 评论(0) 推荐(0) 编辑
摘要:一、基础介绍 1、概念 2、Debezium 为捕获数据更改(change data capture,CDC)提供了一个低延迟的流式处理平台。可以消费数据库每一个行级别(row-level)的更改。 只有已提交的更改才是可见的,无需担心回滚,用持久化的、有副本备份的日志来记录数据库数据变化的历史 捕 阅读全文
posted @ 2021-08-03 10:39 哥们要飞 阅读(337) 评论(0) 推荐(0) 编辑
摘要:〇、相关资料 1、快速搭建文档: 2、详细讲义 3、在线官方文档:http://kafka.apache.org/documentation/ 4、Kafka知识个人总结 5、KafkaPPT汇报 链接:https://pan.baidu.com/s/16VufOVYu8H1I13sENnvN1A  阅读全文
posted @ 2021-06-30 11:55 哥们要飞 阅读(124) 评论(0) 推荐(0) 编辑
摘要:一、多租赁模式基于 Zookeeper和 kafka-configs.sh 管理所有用户 1、步骤 l 基于zookeeper,实现用户管理 l 配置broker认证信息,并进行平滑更新 l 配置client认证信息(通过java api) 2、其他概念 ACL: 访问控制列表(Access Con 阅读全文
posted @ 2021-06-28 21:12 哥们要飞 阅读(225) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示