随笔分类 -  大数据

摘要:文章目录 1. 组件简介2. 项目实践2.1 负载均衡2.1.1 需求2.1.2 配置2.1.3 运行 2.2 故障转移2.2.1 需求2.2.2 配置2.2.3 运行 1. 组件简介 Sink Processors类型包括这三种:Default Sink Processor、Load balanc 阅读全文
posted @ 2023-06-22 11:58 ccql 阅读(55) 评论(0) 推荐(0) 编辑
摘要:【Hadoop】大数据开发环境配置 文章目录 【Hadoop】大数据开发环境配置1 设置静态ip2 设置主机名3 关闭防火墙4 ssh免密码登录5 JDK配置6 hadoop安装并配置6.1 集群节点之间时间同步6.2 SSH免密码登录完善6.3 hadoop配置 1 设置静态ip 进入ifcfg- 阅读全文
posted @ 2023-06-15 23:45 ccql 阅读(32) 评论(0) 推荐(0) 编辑
摘要:文章目录 1. 组件简介2. 项目实践2.1 Replicating Channel Selector实践2.1.1 需求2.1.2 配置2.1.3 运行 2.2 Multiplexing Channel Selector实践2.2.1 需求2.2.2 配置2.2.3 运行 1. 组件简介 通俗来讲 阅读全文
posted @ 2023-02-10 23:44 ccql 阅读(93) 评论(0) 推荐(0) 编辑
摘要:文章目录 1. 写在前面2. 组件简介3. 项目实践3.1 需求3.2 配置3.3 运行及结果 1. 写在前面 Flume的核心组件包括:Source、Channel和Sink;高级组件包括Source Interceptors、Channel Selectors和Sink Processors,具 阅读全文
posted @ 2023-02-08 13:24 ccql 阅读(58) 评论(0) 推荐(0) 编辑
摘要:文章目录 1. 需求2. 分析3. 配置3.1 配置机器A-bigData023.2 配置机器B-bigData033.3 配置机器C-bigData04 4. 执行4.1 模拟网站日志输出4.2 执行结果 1. 需求 将机器A(bigData02)和机器B(bigData03)两台机器实时产生的日 阅读全文
posted @ 2023-02-06 15:34 ccql 阅读(74) 评论(0) 推荐(0) 编辑
摘要:文章目录 1. 需求2. 配置2.1 Source2.2 Channel2.3 Sink2.4 完整的配置代码 3. 实践 1. 需求 使用Flume从文件夹中采集数据并上传到HDFS中。要完成这个任务就需要使用在采集数据时使用Spooling Directory Source组件;传输数据时为了保 阅读全文
posted @ 2023-02-03 00:00 ccql 阅读(907) 评论(0) 推荐(0) 编辑
摘要:文章目录 1. Flume是什么2. Flume三大组件3. Flume高级应用场景3.1 多路复用3.2 整合 4. 示例实践4.1 配置4.2 运行4.2.1 运行结果输出4.2.2 设置后台运行 1. Flume是什么 Flume是一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统,能 阅读全文
posted @ 2023-02-02 14:37 ccql 阅读(66) 评论(0) 推荐(0) 编辑
摘要:文章目录 1. 多资源队列配置2. 指定队列提交任务 由于MapReduce默认采用Capacity Scheduler(详见【Hadoop】YARN简述),因此理论上可以存在多个队列,而默认只有一个队列(default),现有需求:额外创建两个队列分别为online和offline,将这三个队列的 阅读全文
posted @ 2023-01-31 23:49 ccql 阅读(400) 评论(0) 推荐(0) 编辑
摘要:文章目录 1. YARN总述2. YARN调度器2.1 FIFO Scheduler2.2 Capacity Scheduler2.3 Fair Scheduler 1. YARN总述 YARN是Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在 阅读全文
posted @ 2023-01-30 12:37 ccql 阅读(41) 评论(0) 推荐(0) 编辑
摘要:默认情况下Map任务的数量与InputSplit数量保持一致,Map阶段的执行效率也与InputSplit数量相关,当遇到大量的小文件时我们采用SequenceFile合并成一个大文件,以此来提高运行效率(【Hadoop】MapReduce小文件问题解决方案(SequenceFile,MapFile 阅读全文
posted @ 2023-01-29 16:43 ccql 阅读(62) 评论(0) 推荐(0) 编辑
摘要:Hadoop的HDFS和MapReduce都是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源。 在【Hadoop】HDFS高可用与高扩展原理分析(HA架构与Federation机制)这篇博客中有提到HDFS的小文件问题,集群启动时DataNode会向NameNode上报所 阅读全文
posted @ 2023-01-27 14:54 ccql 阅读(46) 评论(0) 推荐(0) 编辑
摘要:文章目录 1. 前言2. Mapper代码3. Reducer代码4. Main代码5. 项目打包6. Hadoop运行7. 运行结果查看7.1 输出文件查看7.2 日志查看 1. 前言 在博客【Hadoop】MapReduce原理剖析(Map,Shuffle,Reduce三阶段)中已经分析了Map 阅读全文
posted @ 2023-01-26 18:29 ccql 阅读(223) 评论(0) 推荐(0) 编辑
摘要:文章目录 1. Map阶段1.1 把输入文件(夹)划分为很多InputSplit(Split)1.2 分配并执行map作业 2. Shuffle阶段2.1 Partition(分区)2.2 Sort(排序)2.3 Group(分组)2.4 Combiner(规约)2.5 序列化并写入Linux磁盘内 阅读全文
posted @ 2023-01-25 17:21 ccql 阅读(411) 评论(0) 推荐(0) 编辑
摘要:这篇博客是一个结合HDFS的Shell练习,相对简单。现有需求:每天1:00需要从系统上传一份昨天的日志文件到HDFS,日志文件的格式为access_2023_01_01.log,HDFS目录格式为20230101。这个需求是相对简单的,分为以下几个步骤: 获取昨天的日期 获取日期使用date命令, 阅读全文
posted @ 2023-01-24 21:07 ccql 阅读(69) 评论(0) 推荐(0) 编辑
摘要:文章目录 一、HDFS回收站二、HDFS安全模式 一、HDFS回收站 HDFS在core-site.xml中进行配置后,会为每一个用户在“/user/用户名/.Trash/”地址创建一个回收站目录,每个被用户使用Shell命令行删除的文件或者目录,都会被移动到回收站目录中。但如果一直保存而不清空回收 阅读全文
posted @ 2023-01-24 11:54 ccql 阅读(59) 评论(0) 推荐(0) 编辑
摘要:文章目录 一、HDFS的高可用性(HA架构)二、HDFS的高扩展性(Federation机制)三、HA架构 + Federation机制 一、HDFS的高可用性(HA架构) 为保证HDFS的高可用性,即当NameNode节点机器出现故障而导致宕机时整个系统依旧可以维持运转,那么只需要存在多个Name 阅读全文
posted @ 2023-01-23 23:11 ccql 阅读(257) 评论(0) 推荐(0) 编辑
摘要:文章目录 1. NameNode2. Secondary NameNode3. DataNode HDFS主要包含NameNode、Secondary NameNode和DataNode三部分,且这三部分在分布式文件系统中分属不同的机器,其中Secondary NameNode不是必须的,在HA架构 阅读全文
posted @ 2023-01-22 12:59 ccql 阅读(31) 评论(0) 推荐(0) 编辑
摘要:文章目录 1. 上传文件到HDFS2. 下载HDFS文件3. 删除HDFS文件 本文仅记录上传文件、下载文件和删除文件三个操作。这三个操作有着相似的逻辑,都是先创建配置对象,然后获取操作HDFS的对象,最后再进行各自的功能实现。 1. 上传文件到HDFS 创建配置对象后,指定HDFS的地址,随后获取 阅读全文
posted @ 2023-01-19 11:51 ccql 阅读(17) 评论(0) 推荐(0) 编辑
摘要:Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。我们可以在命令行中对hdfs进行操作,形式上类似于linux文件系统的操作,但本质上相去甚远。其命令格式为: bin/hdfs dfs -<命令参数> hdfs://authority/path 文章 阅读全文
posted @ 2023-01-18 11:53 ccql 阅读(134) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示