07 2020 档案

摘要:MapperReduce的shuffle shuffle阶段划分 Map阶段和Reduce阶段 任务 MapTask和ReduceTask shuffle过程 Map阶段shuffle:分区->排序->合并 ①数据从环形缓冲区溢写到磁盘前,需要先进行分区,然后区内排序 ②环形缓存区数据到达阈值(80 阅读全文
posted @ 2020-07-31 18:43 来自遥远的水星 阅读(905) 评论(0) 推荐(0) 编辑
摘要:一. 建立对应得目录 二.导入junit依赖 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> <scope>test</scope> </dependency> 阅读全文
posted @ 2020-07-31 14:31 来自遥远的水星 阅读(1475) 评论(0) 推荐(0) 编辑
摘要:一.Windows安装 1.安装 将spark-3.0.0-bin-hadoop3.2.tgz解压到非中文目录 2.使用 bin/spark-shell.cmd : 提供一个交互式shell val result: String = sc.textFile("input").flatMap(_.sp 阅读全文
posted @ 2020-07-29 20:47 来自遥远的水星 阅读(4475) 评论(0) 推荐(0) 编辑
摘要:1.导入依赖 <dependency> <groupId>commons-httpclient</groupId> <artifactId>commons-httpclient</artifactId> <version>3.0.1</version> </dependency> 2.Post请求 阅读全文
posted @ 2020-07-28 18:43 来自遥远的水星 阅读(469) 评论(0) 推荐(0) 编辑
摘要:面向对象总结 面向对象 1、scala包 1、声明包 1、在文件第一行通过package 包名 2、package 包名{ .... } 第二种方法,包名只能在target目录才能看到 2、导入包 1、导入包下所有类: import 包名._ 2、导入包下多个类: import 包名.{类名1,类名 阅读全文
posted @ 2020-07-28 18:30 来自遥远的水星 阅读(133) 评论(0) 推荐(0) 编辑
摘要:一.try-catch-finally 使用场景:在获取外部链接的时候,使用异常处理,如获取mysql连接 示例 //1、获取数据库链接 var connection:Connection = null var statement:PreparedStatement = null try{ conn 阅读全文
posted @ 2020-07-28 18:18 来自遥远的水星 阅读(215) 评论(0) 推荐(0) 编辑
摘要:一.基本语法 在匹配某个范围的数据,需要在模式匹配中增加条件守卫。 语法 变量 match { case 匹配条件 => 处理逻辑 case 匹配条件 => 处理逻辑 case 匹配条件 => 处理逻辑 case _ => 其他处理 //case x => 其他条件 如果x不在箭头右边使用,则可以用 阅读全文
posted @ 2020-07-28 15:59 来自遥远的水星 阅读(118) 评论(0) 推荐(0) 编辑
摘要:一.fastjson工具 pom依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.62</version> </dependency> Json字符串<->对象 阅读全文
posted @ 2020-07-28 14:59 来自遥远的水星 阅读(8096) 评论(0) 推荐(1) 编辑
摘要:一.集合属性 size 获取集合的大小 list.size length 获取集合的长度 list.length contains 是否包含 val list = List[Int](3,7,2,9,10) list.contains(100 mkString 转字符串,参数是元素的分隔符。 val 阅读全文
posted @ 2020-07-27 21:06 来自遥远的水星 阅读(222) 评论(0) 推荐(0) 编辑
摘要:需求处理步骤 原始数据->json->过滤->列裁剪 需求二:求各省市的各个指标 原始数据 文本pmt.json,每一行都是一个json字符串。里面包含ip等信息 {"sessionid":"4KT69Su8FavGfydclctzpUBQwYfRT0KW","advertisersid":19," 阅读全文
posted @ 2020-07-27 20:34 来自遥远的水星 阅读(294) 评论(0) 推荐(0) 编辑
摘要:一.Array package com.bigdata.scala.day01 /** * @description: 不可变数组&&可变数组 * @author: HaoWu * @create: 2020/7/24 */ object $10_Array { def main(args: Arr 阅读全文
posted @ 2020-07-24 19:18 来自遥远的水星 阅读(120) 评论(0) 推荐(0) 编辑
摘要:Java获取Class实例的四种方式 package com.test; /** * @description: TODO * @author: HaoWu * @create: 2020/7/22 10:39 */ public class A { public static void main( 阅读全文
posted @ 2020-07-22 19:26 来自遥远的水星 阅读(1930) 评论(0) 推荐(0) 编辑
摘要:Java 1.类型检查 使用:变量 instanceof 类型 示例 String name = "zhangsan" // 判断name是不是String类型 boolean b = name instanceof String; 2.类型转换 1.String 转 Int / boolean / 阅读全文
posted @ 2020-07-22 19:22 来自遥远的水星 阅读(1122) 评论(0) 推荐(0) 编辑
摘要:一.方法和函数 1.方法 1)基本语法 def 方法名(参数名:参数类型,...):返回值类型 = {方法体} 示例 def add(x: Int, y: Int): Int = { x + y } 2)简化原则 1、方法体中只有一行语句的时候,可以省略 示例 def add(x: Int, y: 阅读全文
posted @ 2020-07-22 15:44 来自遥远的水星 阅读(196) 评论(0) 推荐(0) 编辑
摘要:一.下载 下载地址:https://www.scala-lang.org/download/all.html 下载对应得版本,有linux安装包、windows安装包,源码包,按需下载 二.windows安装 1)首先确保jdk1.8安装成功 2)解压文件到指定目录 3)配置环境变量 4)验证,如下 阅读全文
posted @ 2020-07-21 23:18 来自遥远的水星 阅读(315) 评论(0) 推荐(0) 编辑
摘要:一.变量和数据类型 1.变量 语法:val / var 变量名:变量类型 = 值 val name:String = "zhangsan" 注意 1、val定义的变量想到于java的final,不可用被重新赋值 2、var定义的变量可以被重新赋值 3、在定义变量的时候,变量类型可以省略,scala会 阅读全文
posted @ 2020-07-21 19:26 来自遥远的水星 阅读(210) 评论(0) 推荐(0) 编辑
摘要:java.util.Calendar 类是一个抽象类 ,Calendar 类进行时间和日期的处理 首先获取类实例 Calendar calendar = Calendar.getInstance();//获取当前系统时间 1.设置时间 calendar.set(2013, 5, 4, 13, 44, 阅读全文
posted @ 2020-07-21 18:29 来自遥远的水星 阅读(201) 评论(0) 推荐(0) 编辑
摘要:1.使用步骤 1)创建.project文件: azkaban-flow-version:2.0 2)创建.flow文件 3)压缩成.zip文件,上传 注意:flow文件是yaml格式 大小写敏感 通过缩进来表达层次,严禁使用\t 属性名:后面跟一个空格 2.案例: 1.hello word node 阅读全文
posted @ 2020-07-20 19:41 来自遥远的水星 阅读(438) 评论(0) 推荐(0) 编辑
摘要:一.下载解压 1.下载地址:https://github.com/azkaban/azkaban 2.上传tar包 1)将azkaban-db-3.84.4.tar.gz,azkaban-exec-server-3.84.4.tar.gz,azkaban-web-server-3.84.4.tar. 阅读全文
posted @ 2020-07-20 19:24 来自遥远的水星 阅读(786) 评论(1) 推荐(0) 编辑
摘要:方式一 当Maven引入的依赖jar包不是Maven仓库的,是自定义打包生成的jar,可以通过以下方式引入,将此包打入工程。 <dependency> <groupId>az-core</groupId> <artifactId>az-core</artifactId> <version>3.84. 阅读全文
posted @ 2020-07-20 12:58 来自遥远的水星 阅读(182) 评论(0) 推荐(0) 编辑
摘要:场景一 对当前项目打包并指定主类。 <build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> <configuration> <source>1.8</sour 阅读全文
posted @ 2020-07-20 12:56 来自遥远的水星 阅读(134) 评论(0) 推荐(0) 编辑
摘要:一.简介 ​ Phoenix是HBase的开源SQL皮肤,可以理解为一个HBase的客户端工具。 ​ 好处 ​ 1)可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据 ​ 2)操作简单:DML命令以及通过DDL命令创建和操作表和版本化增量更改; ​ 3)支持 阅读全文
posted @ 2020-07-20 12:30 来自遥远的水星 阅读(1514) 评论(0) 推荐(1) 编辑
摘要:一.导入依赖 创建模块,导入以下依赖,maven默认编译版本是1.5,用1.8编译。 pom.xml <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactI 阅读全文
posted @ 2020-07-16 17:33 来自遥远的水星 阅读(303) 评论(0) 推荐(0) 编辑
摘要:转载自: http://blog.csdn.net/u010967382/article/details/37878701 概述 对于建表,和RDBMS类似,HBase也有namespace的概念,可以指定表空间创建表,也可以直接创建表,进入default表空间。 对于数据操作,HBase支持四类主 阅读全文
posted @ 2020-07-16 09:15 来自遥远的水星 阅读(364) 评论(0) 推荐(0) 编辑
摘要:一.基础操作 1.进入shell命令行 bin/hbase shell [hadoop@hadoop102 hbase]$ bin/hbase shell SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding 阅读全文
posted @ 2020-07-14 19:55 来自遥远的水星 阅读(309) 评论(0) 推荐(0) 编辑
摘要:一.Zookeeper正常部署 Zookeeper集群的正常部署并启动 二.Hadoop正常部署 Hadoop集群的正常部署并启动 三.Hbase部署 1.下载 下载地址:https://hbase.apache.org/downloads.html 2.解压 当前安装版本为hbase-2.0.5, 阅读全文
posted @ 2020-07-14 18:34 来自遥远的水星 阅读(434) 评论(0) 推荐(0) 编辑
摘要:一.编译 hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。 0. 环境准备 maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像) gcc-c++ zlib-d 阅读全文
posted @ 2020-07-13 18:51 来自遥远的水星 阅读(1238) 评论(0) 推荐(0) 编辑
摘要:一.简介 Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中,也可以将 HD 阅读全文
posted @ 2020-07-13 18:25 来自遥远的水星 阅读(315) 评论(0) 推荐(0) 编辑
摘要:一.Kafka概述 1.1 定义 ​ Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。 ​ 消息队列是解决生产中同步异步问题,解耦,削峰。 应用场景:一般用于实时业务,离线偶尔用来削峰。 二.Kafka快速入门 2.1 安装部署 集群 阅读全文
posted @ 2020-07-08 21:13 来自遥远的水星 阅读(198) 评论(0) 推荐(0) 编辑
摘要:一.简单实现 需求:根据 flume 监控 exec 文件的追加数据,写入 kafka 的 test-demo 分区,然后启用 kafka-consumer 消费 test-demo 分区数据。 需求分析 1)flume的配置文件 在hadoop102上创建flume的配置文件 # define a 阅读全文
posted @ 2020-07-07 23:00 来自遥远的水星 阅读(1194) 评论(0) 推荐(0) 编辑
摘要:Agent的配置文件最好根据Flume的拓扑架构,依次写好每个节点的配置文件; 一.Agent 开头都是先要定义agent,sorce,channel,sink名 # Name the components on this agent( 描述这个Agent,给各个组件取名字) a1.sources 阅读全文
posted @ 2020-07-05 23:28 来自遥远的水星 阅读(431) 评论(0) 推荐(0) 编辑
摘要:一.Flume 数据传输流程 重要组件: 1)Channel选择器(ChannelSelector) ​ ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和**Multiplexing**(多路复用)。 ​ Re 阅读全文
posted @ 2020-07-05 23:12 来自遥远的水星 阅读(381) 评论(0) 推荐(0) 编辑
摘要:一.安装部署 下载安装包,解压,分发多节点 1.安装地址 (1) Flume官网:http://flume.apache.org/ (2)文档查看:http://flume.apache.org/FlumeUserGuide.html (3)下载:http://archive.apache.org/ 阅读全文
posted @ 2020-07-03 23:04 来自遥远的水星 阅读(247) 评论(0) 推荐(0) 编辑
摘要:一.Flume定义 ​ Flume是Cloudera公司提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 ​ Flume最主要的作用就是,实时读取服务器的本地磁盘的数据,将数据写入到HDFS。 二.Flume基础架构 ​ Flume基本组成架构如下 阅读全文
posted @ 2020-07-03 22:40 来自遥远的水星 阅读(239) 评论(0) 推荐(0) 编辑
摘要:一.什么是yarn ​ Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 二.yarn的基本架构和角色 yarn主要由ResourceManager、NodeManager、Applic 阅读全文
posted @ 2020-07-02 16:50 来自遥远的水星 阅读(5605) 评论(0) 推荐(0) 编辑
摘要:1.Fetch抓取 Fetch抓取:Hive中对某些情况的查询可以不必使用MapReduce计算。 例如:SELECT * FROM emp;在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。 在%HIVE_HOME%/conf/hive-default.x 阅读全文
posted @ 2020-07-02 14:13 来自遥远的水星 阅读(235) 评论(0) 推荐(0) 编辑
摘要:一.Hadoop的压缩配置 1.MR支持的压缩编码 压缩格式 算法 文件扩展名 是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否 阅读全文
posted @ 2020-07-02 11:06 来自遥远的水星 阅读(225) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示