随笔分类 - 实训
2021/06/06
摘要:Kafka 第1章 Kafka概述 1.1 Kafka是什么 在流式计算中,Kafka一般用来缓存数据,Storm和Spark通过消费Kafka的数据进行计算。 1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2)Kafka最
阅读全文
摘要:Flume 1. Flume解决的问题 2. Flume概念 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 3. Flume的工作机制 4. Flume组成架构 4.1. Agent Agent是一个JVM进程,
阅读全文
摘要:Hadoop第六天 1. Yarn资源调度 1.1. Yarn概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 1.2. Yarn基本架构 YARN主要由ResourceManag
阅读全文
摘要:Hadoop第五天1.MapReduce框架原理1.1.MapTask并行度决定机制问题:maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度。那么,mapTask并行任务是否越多越好呢? 一个job的map阶段MapTask并行度(个数),由客户端提交job时的切片
阅读全文
摘要:Hadoop第四天 1. 作业题 统计每个手机号消耗的流量: 上传流量 下载流量 总流量 1.1. 封装序列化对象 package com.hotdas.mr.bean;import org.apache.hadoop.io.Writable;import java.io.DataInput;imp
阅读全文
摘要:Hadoop第三天 1. HDFS读数据流程 1.客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件存放的DataNode地址. 2.挑选一台近的DataNode节点,请求下载数据. 3.DataNode传输数据到客户端,(
阅读全文
摘要:Hadoop第二天 1. HDFS的java客户端 1.1. 解决log4j错误警告 log4j.rootLogger=INFO, stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.la
阅读全文
摘要:Hadoop第一天 1. 数据的分布式存储 2. 什么是HDFS? 海量数据是存储在集群上的(利用多台机器作为存储资源) 多台机器组成一个有组织的群体(主节点,从节点) 从节点启动后,向主节点汇报自已的资源 主节点接收到从节点的注册后,维护集群(列表有几个节点,每个节点的存储容量信息) 客户端存储数
阅读全文
摘要:maven项目管理工具入门到精通 1. 课程安排 maven入门 概念 配置 maven进阶-配置详解 搭建私服(第三方仓库) 2. maven入门 2.1. 为什么产生maven管理工具 jar包: 依赖 使用maven管理软件的依赖(jar),避免团队反复的复制(jar) maven管理工具具有
阅读全文
摘要:Shell编程 1.1 概述 Shell是一个命令行解释器,它为用户提供了一个向Linux内核发送请求以便运行程序的界面系统级程序,用户可以用Shell来启动、挂起、停止甚至是编写一些程序。 Shell还是一个功能相当强大的编程语言,易编写、易调试、灵活性强。Shell是解释执行的脚本语言,在She
阅读全文
摘要:Zookeeper 1. Zookeeper概述 1.1 概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 1.2 特点 1)Zookeeper:一个领导者(leader),多个跟随者(follower)组成的集群。 2)Leader负责进行投票的发起和决议
阅读全文