07 2020 档案
摘要:MapperReduce的shuffle shuffle阶段划分 Map阶段和Reduce阶段 任务 MapTask和ReduceTask shuffle过程 Map阶段shuffle:分区->排序->合并 ①数据从环形缓冲区溢写到磁盘前,需要先进行分区,然后区内排序 ②环形缓存区数据到达阈值(80
阅读全文
摘要:一. 建立对应得目录 二.导入junit依赖 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> <scope>test</scope> </dependency>
阅读全文
摘要:一.Windows安装 1.安装 将spark-3.0.0-bin-hadoop3.2.tgz解压到非中文目录 2.使用 bin/spark-shell.cmd : 提供一个交互式shell val result: String = sc.textFile("input").flatMap(_.sp
阅读全文
摘要:1.导入依赖 <dependency> <groupId>commons-httpclient</groupId> <artifactId>commons-httpclient</artifactId> <version>3.0.1</version> </dependency> 2.Post请求
阅读全文
摘要:面向对象总结 面向对象 1、scala包 1、声明包 1、在文件第一行通过package 包名 2、package 包名{ .... } 第二种方法,包名只能在target目录才能看到 2、导入包 1、导入包下所有类: import 包名._ 2、导入包下多个类: import 包名.{类名1,类名
阅读全文
摘要:一.try-catch-finally 使用场景:在获取外部链接的时候,使用异常处理,如获取mysql连接 示例 //1、获取数据库链接 var connection:Connection = null var statement:PreparedStatement = null try{ conn
阅读全文
摘要:一.基本语法 在匹配某个范围的数据,需要在模式匹配中增加条件守卫。 语法 变量 match { case 匹配条件 => 处理逻辑 case 匹配条件 => 处理逻辑 case 匹配条件 => 处理逻辑 case _ => 其他处理 //case x => 其他条件 如果x不在箭头右边使用,则可以用
阅读全文
摘要:一.fastjson工具 pom依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.62</version> </dependency> Json字符串<->对象
阅读全文
摘要:一.集合属性 size 获取集合的大小 list.size length 获取集合的长度 list.length contains 是否包含 val list = List[Int](3,7,2,9,10) list.contains(100 mkString 转字符串,参数是元素的分隔符。 val
阅读全文
摘要:需求处理步骤 原始数据->json->过滤->列裁剪 需求二:求各省市的各个指标 原始数据 文本pmt.json,每一行都是一个json字符串。里面包含ip等信息 {"sessionid":"4KT69Su8FavGfydclctzpUBQwYfRT0KW","advertisersid":19,"
阅读全文
摘要:一.Array package com.bigdata.scala.day01 /** * @description: 不可变数组&&可变数组 * @author: HaoWu * @create: 2020/7/24 */ object $10_Array { def main(args: Arr
阅读全文
摘要:Java获取Class实例的四种方式 package com.test; /** * @description: TODO * @author: HaoWu * @create: 2020/7/22 10:39 */ public class A { public static void main(
阅读全文
摘要:Java 1.类型检查 使用:变量 instanceof 类型 示例 String name = "zhangsan" // 判断name是不是String类型 boolean b = name instanceof String; 2.类型转换 1.String 转 Int / boolean /
阅读全文
摘要:一.方法和函数 1.方法 1)基本语法 def 方法名(参数名:参数类型,...):返回值类型 = {方法体} 示例 def add(x: Int, y: Int): Int = { x + y } 2)简化原则 1、方法体中只有一行语句的时候,可以省略 示例 def add(x: Int, y:
阅读全文
摘要:一.下载 下载地址:https://www.scala-lang.org/download/all.html 下载对应得版本,有linux安装包、windows安装包,源码包,按需下载 二.windows安装 1)首先确保jdk1.8安装成功 2)解压文件到指定目录 3)配置环境变量 4)验证,如下
阅读全文
摘要:一.变量和数据类型 1.变量 语法:val / var 变量名:变量类型 = 值 val name:String = "zhangsan" 注意 1、val定义的变量想到于java的final,不可用被重新赋值 2、var定义的变量可以被重新赋值 3、在定义变量的时候,变量类型可以省略,scala会
阅读全文
摘要:java.util.Calendar 类是一个抽象类 ,Calendar 类进行时间和日期的处理 首先获取类实例 Calendar calendar = Calendar.getInstance();//获取当前系统时间 1.设置时间 calendar.set(2013, 5, 4, 13, 44,
阅读全文
摘要:1.使用步骤 1)创建.project文件: azkaban-flow-version:2.0 2)创建.flow文件 3)压缩成.zip文件,上传 注意:flow文件是yaml格式 大小写敏感 通过缩进来表达层次,严禁使用\t 属性名:后面跟一个空格 2.案例: 1.hello word node
阅读全文
摘要:一.下载解压 1.下载地址:https://github.com/azkaban/azkaban 2.上传tar包 1)将azkaban-db-3.84.4.tar.gz,azkaban-exec-server-3.84.4.tar.gz,azkaban-web-server-3.84.4.tar.
阅读全文
摘要:方式一 当Maven引入的依赖jar包不是Maven仓库的,是自定义打包生成的jar,可以通过以下方式引入,将此包打入工程。 <dependency> <groupId>az-core</groupId> <artifactId>az-core</artifactId> <version>3.84.
阅读全文
摘要:场景一 对当前项目打包并指定主类。 <build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> <configuration> <source>1.8</sour
阅读全文
摘要:一.简介 Phoenix是HBase的开源SQL皮肤,可以理解为一个HBase的客户端工具。 好处 1)可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据 2)操作简单:DML命令以及通过DDL命令创建和操作表和版本化增量更改; 3)支持
阅读全文
摘要:一.导入依赖 创建模块,导入以下依赖,maven默认编译版本是1.5,用1.8编译。 pom.xml <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactI
阅读全文
摘要:转载自: http://blog.csdn.net/u010967382/article/details/37878701 概述 对于建表,和RDBMS类似,HBase也有namespace的概念,可以指定表空间创建表,也可以直接创建表,进入default表空间。 对于数据操作,HBase支持四类主
阅读全文
摘要:一.基础操作 1.进入shell命令行 bin/hbase shell [hadoop@hadoop102 hbase]$ bin/hbase shell SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding
阅读全文
摘要:一.Zookeeper正常部署 Zookeeper集群的正常部署并启动 二.Hadoop正常部署 Hadoop集群的正常部署并启动 三.Hbase部署 1.下载 下载地址:https://hbase.apache.org/downloads.html 2.解压 当前安装版本为hbase-2.0.5,
阅读全文
摘要:一.编译 hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。 0. 环境准备 maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像) gcc-c++ zlib-d
阅读全文
摘要:一.简介 Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中,也可以将 HD
阅读全文
摘要:一.Kafka概述 1.1 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。 消息队列是解决生产中同步异步问题,解耦,削峰。 应用场景:一般用于实时业务,离线偶尔用来削峰。 二.Kafka快速入门 2.1 安装部署 集群
阅读全文
摘要:一.简单实现 需求:根据 flume 监控 exec 文件的追加数据,写入 kafka 的 test-demo 分区,然后启用 kafka-consumer 消费 test-demo 分区数据。 需求分析 1)flume的配置文件 在hadoop102上创建flume的配置文件 # define a
阅读全文
摘要:Agent的配置文件最好根据Flume的拓扑架构,依次写好每个节点的配置文件; 一.Agent 开头都是先要定义agent,sorce,channel,sink名 # Name the components on this agent( 描述这个Agent,给各个组件取名字) a1.sources
阅读全文
摘要:一.Flume 数据传输流程 重要组件: 1)Channel选择器(ChannelSelector) ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和**Multiplexing**(多路复用)。 Re
阅读全文
摘要:一.安装部署 下载安装包,解压,分发多节点 1.安装地址 (1) Flume官网:http://flume.apache.org/ (2)文档查看:http://flume.apache.org/FlumeUserGuide.html (3)下载:http://archive.apache.org/
阅读全文
摘要:一.Flume定义 Flume是Cloudera公司提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume最主要的作用就是,实时读取服务器的本地磁盘的数据,将数据写入到HDFS。 二.Flume基础架构 Flume基本组成架构如下
阅读全文
摘要:一.什么是yarn Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 二.yarn的基本架构和角色 yarn主要由ResourceManager、NodeManager、Applic
阅读全文
摘要:1.Fetch抓取 Fetch抓取:Hive中对某些情况的查询可以不必使用MapReduce计算。 例如:SELECT * FROM emp;在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。 在%HIVE_HOME%/conf/hive-default.x
阅读全文
摘要:一.Hadoop的压缩配置 1.MR支持的压缩编码 压缩格式 算法 文件扩展名 是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否
阅读全文