01 2021 档案
摘要:一、Kafka概述 1.1、定义 1.2、消息队列 1.2.1、消息队列的应用场景 1.2.2、消息队列的好处 1)解耦 1.2.3、消息队列的两种模式 二、Kafka基础架构 三、Kafka集群安装 3.1、集群规划 3.2、软件下载 官网:http://kafka.apache.org/down
阅读全文
摘要:一、环境搭建 1)创建一个maven工程 2)添加依赖 3)创建log4j.properties 二、API使用 2.1、创建ZooKeeper客户端 2.2、创建子节点 2.3、获取子节点并监听节点变化 2.4、判断Znode是否存在 三、监听服务器节点动态上下线案例 1)需求 3)具体实现 (1
阅读全文
摘要:一、倒排索引案例(多job串联) 1.1、需求及分析 1.2、代码编写 1.2.1、第一次处理 1.1.2、第二次处理 二、TopN案例 2.1、需求及分析 2.2、代码实现 三、共同好友案例 3.1、需求及分析 A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L
阅读全文
摘要:一、MapReduce 慢的原因 MapReduce 程序效率的瓶颈在于两点: 1.1、计算机性能 CPU、内存、磁盘健康、网络 1.2、I/O 操作优化 (1)数据倾斜 (2)Map和Reduce数设置不合理 (3)Map运行时间太长,导致Reduce等待过久 (4)小文件过多 (5)大量的不可分
阅读全文
摘要:一、Yarn基本架构 二、Yarn工作机制 三、作业提交全过程 3.1、作业提交过程之YARN 3.2、作业提交过程之MapReduce 四、资源调度器 4.1、先进先出调度器(FIFO) 4.2、容量调度器(Capacity Scheduler) 4.3、公平调度器(Fair Scheduler)
阅读全文
摘要:一、数据压缩 1.1、概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘I/O和
阅读全文
摘要:一、OutputFormat数据输出 1.1、OutputFormat接口实现类 OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了 OutputFormat接口。下面我们介绍几种常见的OutputFormat实现类。 1)文本输出TextOutputFo
阅读全文
摘要:一、InputFormat数据输入 1.1、切片与MapTask并行度决定机制 1)问题引出 1.2、Job提交流程源码和切片源码详解 1.2.1、Job提交流程源码详解 1.2.2、FileInputFormat切片源码解析(input.getSplits(job)) /** * Generate
阅读全文
摘要:一、MapReduce概述 1.1、MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。
阅读全文
摘要:一、NameNode和SecondaryNameNode 1.1、NN和2NN工作机制 1.2、Fsimage和Edits解析 1.2.1、Fsimage和Edits概念 NameNode被格式化之后,将在/opt/module/hadoop-2.7.2/data/tmp/dfs/name/curr
阅读全文
摘要:一、HDFS客户端环境准备 二、HDFS客户端API操作 2.1、HDFS文件上传(测试参数优先级) 2.2、HDFS文件下载 1)编写源代码 2.3、HDFS文件夹删除 2.4、HDFS文件名更改 2.5、HDFS文件详情查看 2.6、HDFS文件和文件夹判断 2.7、HDFS的I/O流操作 2.
阅读全文
摘要:一、HDFS概述 1.1、HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 1.2、HDFS定义 HDFS(H
阅读全文
摘要:一、前期准备 二、jar包安装 三、编译源码
阅读全文
摘要:一、Hadoop运行环境搭建 准备干净的Centos7虚拟机,关闭防火墙,selinux,修改好主机名,添加主机映射 1.1、创建普通用户并授权 1.2、创建文件夹并授权 1.3、安装jdk 1.4、安装Hadoop 1.5、Hadoop目录结构 二、Hadoop运行模式-本地运行模式 文档:htt
阅读全文
摘要:一、大数据介绍 1.1、大数据概念 1)大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 2)主要解决,海量数据的存储和海量数据的分析计算问题。 3)按顺
阅读全文
摘要:文档:https://kubesphere.io/zh/docs/quick-start/wordpress-deployment/ 一、创建秘钥 1.1、创建mysql秘钥 1.2、创建wordpress秘钥 二、创建存储卷 2.1、创建wordpress-pvc 2.2、创建mysql-pvc
阅读全文
摘要:3.0文档:https://kubesphere.io/zh/docs/quick-start/create-workspace-and-project/ 3.1文档:https://v2-1.docs.kubesphere.io/docs/zh-CN/quick-start/admin-quick
阅读全文
摘要:一、环境准备 在aliyun上购买三台服务器,安全组相关配置后续按需开通 1)关闭防火墙(阿里云服务器默认已关闭) 2)关闭selinux(阿里云服务器默认已关闭) 3)关闭swap(阿里云服务器默认已关闭) 以上阿里云服务器无需配置 4)添加主机名与 IP 对应关系(三台都需要) 5)将桥接的 I
阅读全文