2020 年 7月随笔档案 - 来自遥远的水星

Spark的shuffle和MapReduce的shuffle对比

摘要：MapperReduce的shuffle shuffle阶段划分 Map阶段和Reduce阶段任务 MapTask和ReduceTask shuffle过程 Map阶段shuffle：分区->排序->合并 ①数据从环形缓冲区溢写到磁盘前，需要先进行分区，然后区内排序 ②环形缓存区数据到达阈值(80 阅读全文

posted @ 2020-07-31 18:43 来自遥远的水星阅读(905) 评论(0) 推荐(0) 编辑

IDEA中对代码进行测试

摘要：一. 建立对应得目录二.导入junit依赖 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> <scope>test</scope> </dependency> 阅读全文

posted @ 2020-07-31 14:31 来自遥远的水星阅读(1475) 评论(0) 推荐(0) 编辑

Spark(一)【spark-3.0安装和入门】

摘要：一.Windows安装 1.安装将spark-3.0.0-bin-hadoop3.2.tgz解压到非中文目录 2.使用 bin/spark-shell.cmd : 提供一个交互式shell val result: String = sc.textFile("input").flatMap(_.sp 阅读全文

posted @ 2020-07-29 20:47 来自遥远的水星阅读(4475) 评论(0) 推荐(0) 编辑

HTTP请求 Java API

摘要：1.导入依赖 <dependency> <groupId>commons-httpclient</groupId> <artifactId>commons-httpclient</artifactId> <version>3.0.1</version> </dependency> 2.Post请求阅读全文

posted @ 2020-07-28 18:43 来自遥远的水星阅读(469) 评论(0) 推荐(0) 编辑

Scala(八)【面向对象总结】

摘要：面向对象总结面向对象 1、scala包 1、声明包 1、在文件第一行通过package 包名 2、package 包名{ .... } 第二种方法，包名只能在target目录才能看到 2、导入包 1、导入包下所有类: import 包名._ 2、导入包下多个类: import 包名.{类名1,类名阅读全文

posted @ 2020-07-28 18:30 来自遥远的水星阅读(133) 评论(0) 推荐(0) 编辑

Scala(七)【异常处理】

摘要：一.try-catch-finally 使用场景：在获取外部链接的时候，使用异常处理，如获取mysql连接示例 //1、获取数据库链接 var connection:Connection = null var statement:PreparedStatement = null try{ conn 阅读全文

posted @ 2020-07-28 18:18 来自遥远的水星阅读(215) 评论(0) 推荐(0) 编辑

Scala(六)【模式匹配】

摘要：一.基本语法在匹配某个范围的数据，需要在模式匹配中增加条件守卫。语法变量 match { case 匹配条件 => 处理逻辑 case 匹配条件 => 处理逻辑 case 匹配条件 => 处理逻辑 case _ => 其他处理 //case x => 其他条件如果x不在箭头右边使用，则可以用阅读全文

posted @ 2020-07-28 15:59 来自遥远的水星阅读(118) 评论(0) 推荐(0) 编辑

Scala【json字符串和json对象互相转换】

摘要：一.fastjson工具 pom依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.62</version> </dependency> Json字符串<->对象阅读全文

posted @ 2020-07-28 14:59 来自遥远的水星阅读(8096) 评论(0) 推荐(1) 编辑

Scala(五)【集合的高级使用】

摘要：一.集合属性 size 获取集合的大小 list.size length 获取集合的长度 list.length contains 是否包含 val list = List[Int](3,7,2,9,10) list.contains(100 mkString 转字符串，参数是元素的分隔符。 val 阅读全文

posted @ 2020-07-27 21:06 来自遥远的水星阅读(222) 评论(0) 推荐(0) 编辑

Scala【需求二：求各省市的各个指标】

摘要：需求处理步骤原始数据->json->过滤->列裁剪需求二：求各省市的各个指标原始数据文本pmt.json，每一行都是一个json字符串。里面包含ip等信息 {"sessionid":"4KT69Su8FavGfydclctzpUBQwYfRT0KW","advertisersid":19," 阅读全文

posted @ 2020-07-27 20:34 来自遥远的水星阅读(294) 评论(0) 推荐(0) 编辑

Scala(四)【集合基础入门】

摘要：一.Array package com.bigdata.scala.day01 /** * @description: 不可变数组&&可变数组 * @author: HaoWu * @create: 2020/7/24 */ object $10_Array { def main(args: Arr 阅读全文

posted @ 2020-07-24 19:18 来自遥远的水星阅读(120) 评论(0) 推荐(0) 编辑

Java、Scala获取Class实例

摘要：Java获取Class实例的四种方式 package com.test; /** * @description: TODO * @author: HaoWu * @create: 2020/7/22 10:39 */ public class A { public static void main( 阅读全文

posted @ 2020-07-22 19:26 来自遥远的水星阅读(1930) 评论(0) 推荐(0) 编辑

Java、Scala类型检查和类型转换

摘要：Java 1.类型检查使用：变量 instanceof 类型示例 String name = "zhangsan" // 判断name是不是String类型 boolean b = name instanceof String; 2.类型转换 1.String 转 Int / boolean / 阅读全文

posted @ 2020-07-22 19:22 来自遥远的水星阅读(1122) 评论(0) 推荐(0) 编辑

Scala(三)【函数式编程】

摘要：一.方法和函数 1.方法 1）基本语法 def 方法名(参数名:参数类型,...):返回值类型 = {方法体} 示例 def add(x: Int, y: Int): Int = { x + y } 2）简化原则 1、方法体中只有一行语句的时候,可以省略示例 def add(x: Int, y: 阅读全文

posted @ 2020-07-22 15:44 来自遥远的水星阅读(196) 评论(0) 推荐(0) 编辑

Scala(一)【安装和IDEA中开发】

摘要：一.下载下载地址：https://www.scala-lang.org/download/all.html 下载对应得版本，有linux安装包、windows安装包，源码包，按需下载二.windows安装 1）首先确保jdk1.8安装成功 2）解压文件到指定目录 3）配置环境变量 4）验证，如下阅读全文

posted @ 2020-07-21 23:18 来自遥远的水星阅读(315) 评论(0) 推荐(0) 编辑

Scala(二)【基本使用】

摘要：一.变量和数据类型 1.变量语法：val / var 变量名：变量类型 = 值 val name：String = "zhangsan" 注意 1、val定义的变量想到于java的final，不可用被重新赋值 2、var定义的变量可以被重新赋值 3、在定义变量的时候，变量类型可以省略，scala会阅读全文

posted @ 2020-07-21 19:26 来自遥远的水星阅读(210) 评论(0) 推荐(0) 编辑

Java【常用的日期操作】

摘要：java.util.Calendar 类是一个抽象类，Calendar 类进行时间和日期的处理首先获取类实例 Calendar calendar = Calendar.getInstance();//获取当前系统时间 1.设置时间 calendar.set（2013, 5, 4, 13, 44, 阅读全文

posted @ 2020-07-21 18:29 来自遥远的水星阅读(201) 评论(0) 推荐(0) 编辑

Azkaban(二)【WorkFlow案例实操】

摘要：1.使用步骤 1）创建.project文件: azkaban-flow-version:2.0 2）创建.flow文件 3）压缩成.zip文件，上传注意：flow文件是yaml格式大小写敏感通过缩进来表达层次,严禁使用\t 属性名:后面跟一个空格 2.案例: 1.hello word node 阅读全文

posted @ 2020-07-20 19:41 来自遥远的水星阅读(438) 评论(0) 推荐(0) 编辑

Azkaban(一)【集群安装】

摘要：一.下载解压 1.下载地址：https://github.com/azkaban/azkaban 2.上传tar包 1）将azkaban-db-3.84.4.tar.gz，azkaban-exec-server-3.84.4.tar.gz，azkaban-web-server-3.84.4.tar. 阅读全文

posted @ 2020-07-20 19:24 来自遥远的水星阅读(786) 评论(1) 推荐(0) 编辑

Maven引入本地jar包

摘要：方式一当Maven引入的依赖jar包不是Maven仓库的，是自定义打包生成的jar，可以通过以下方式引入，将此包打入工程。 <dependency> <groupId>az-core</groupId> <artifactId>az-core</artifactId> <version>3.84. 阅读全文

posted @ 2020-07-20 12:58 来自遥远的水星阅读(182) 评论(0) 推荐(0) 编辑

Maven打包及场景

摘要：场景一对当前项目打包并指定主类。 <build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> <configuration> <source>1.8</sour 阅读全文

posted @ 2020-07-20 12:56 来自遥远的水星阅读(134) 评论(0) 推荐(0) 编辑

Hbase与Phoenix整合

摘要：一.简介 Phoenix是HBase的开源SQL皮肤，可以理解为一个HBase的客户端工具。好处 1）可以使用标准JDBC API代替HBase客户端API来创建表，插入数据和查询HBase数据 2）操作简单：DML命令以及通过DDL命令创建和操作表和版本化增量更改； 3）支持阅读全文

posted @ 2020-07-20 12:30 来自遥远的水星阅读(1514) 评论(0) 推荐(1) 编辑

HBase【操作Java api】

摘要：一.导入依赖创建模块，导入以下依赖，maven默认编译版本是1.5，用1.8编译。 pom.xml <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactI 阅读全文

posted @ 2020-07-16 17:33 来自遥远的水星阅读(303) 评论(0) 推荐(0) 编辑

【转载】HBase基本数据操作详解【完整版，绝对精品】

摘要：转载自： http://blog.csdn.net/u010967382/article/details/37878701 概述对于建表，和RDBMS类似，HBase也有namespace的概念，可以指定表空间创建表，也可以直接创建表，进入default表空间。对于数据操作，HBase支持四类主阅读全文

posted @ 2020-07-16 09:15 来自遥远的水星阅读(364) 评论(0) 推荐(0) 编辑

Hbase(二)【shell操作】

摘要：一.基础操作 1.进入shell命令行 bin/hbase shell [hadoop@hadoop102 hbase]$ bin/hbase shell SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding 阅读全文

posted @ 2020-07-14 19:55 来自遥远的水星阅读(309) 评论(0) 推荐(0) 编辑

Hbase(一)【入门安装及高可用】

摘要：一.Zookeeper正常部署 Zookeeper集群的正常部署并启动二.Hadoop正常部署 Hadoop集群的正常部署并启动三.Hbase部署 1.下载下载地址：https://hbase.apache.org/downloads.html 2.解压当前安装版本为hbase-2.0.5, 阅读全文

posted @ 2020-07-14 18:34 来自遥远的水星阅读(434) 评论(0) 推荐(0) 编辑

Hadoop、Hive【LZO压缩配置和使用】

摘要：一.编译 hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。 0. 环境准备 maven（下载安装，配置环境变量，修改sitting.xml加阿里云镜像） gcc-c++ zlib-d 阅读全文

posted @ 2020-07-13 18:51 来自遥远的水星阅读(1238) 评论(0) 推荐(0) 编辑

Sqoop

摘要：一.简介 Sqoop 是一款开源的工具，主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导入到 Hadoop 的 HDFS 中，也可以将 HD 阅读全文

posted @ 2020-07-13 18:25 来自遥远的水星阅读(315) 评论(0) 推荐(0) 编辑

Kafka(一)【概述、入门、架构原理】

摘要：一.Kafka概述 1.1 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。消息队列是解决生产中同步异步问题，解耦，削峰。应用场景：一般用于实时业务，离线偶尔用来削峰。二.Kafka快速入门 2.1 安装部署集群阅读全文

posted @ 2020-07-08 21:13 来自遥远的水星阅读(198) 评论(0) 推荐(0) 编辑

Flume对接Kafka

摘要：一.简单实现需求：根据 flume 监控 exec 文件的追加数据，写入 kafka 的 test-demo 分区,然后启用 kafka-consumer 消费 test-demo 分区数据。需求分析 1）flume的配置文件在hadoop102上创建flume的配置文件 # define a 阅读全文

posted @ 2020-07-07 23:00 来自遥远的水星阅读(1194) 评论(0) 推荐(0) 编辑

Flume(四)【配置文件总结】

摘要：Agent的配置文件最好根据Flume的拓扑架构，依次写好每个节点的配置文件；一.Agent 开头都是先要定义agent，sorce，channel，sink名 # Name the components on this agent（描述这个Agent，给各个组件取名字） a1.sources 阅读全文

posted @ 2020-07-05 23:28 来自遥远的水星阅读(431) 评论(0) 推荐(0) 编辑

Flume(三)【进阶】

摘要：一.Flume 数据传输流程重要组件： 1）Channel选择器（ChannelSelector） ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型，分别是Replicating（复制）和**Multiplexing**（多路复用）。 Re 阅读全文

posted @ 2020-07-05 23:12 来自遥远的水星阅读(381) 评论(0) 推荐(0) 编辑

Flume(二)【入门】

摘要：一.安装部署下载安装包，解压，分发多节点 1.安装地址（1） Flume官网：http://flume.apache.org/ （2）文档查看：http://flume.apache.org/FlumeUserGuide.html （3）下载：http://archive.apache.org/ 阅读全文

posted @ 2020-07-03 23:04 来自遥远的水星阅读(247) 评论(0) 推荐(0) 编辑

Flume(一)【概述】

摘要：一.Flume定义 Flume是Cloudera公司提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。 Flume最主要的作用就是，实时读取服务器的本地磁盘的数据，将数据写入到HDFS。二.Flume基础架构 Flume基本组成架构如下阅读全文

posted @ 2020-07-03 22:40 来自遥远的水星阅读(239) 评论(0) 推荐(0) 编辑

Yarn【架构、原理、多队列配置】

摘要：一.什么是yarn Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。二.yarn的基本架构和角色 yarn主要由ResourceManager、NodeManager、Applic 阅读全文

posted @ 2020-07-02 16:50 来自遥远的水星阅读(5605) 评论(0) 推荐(0) 编辑

Hive(十二)【调优】

摘要：1.Fetch抓取 Fetch抓取：Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM emp;在这种情况下，Hive可以简单地读取emp对应的存储目录下的文件，然后输出查询结果到控制台。在%HIVE_HOME%/conf/hive-default.x 阅读全文

posted @ 2020-07-02 14:13 来自遥远的水星阅读(235) 评论(0) 推荐(0) 编辑

Hive(十一)【压缩、存储】

摘要：一.Hadoop的压缩配置 1.MR支持的压缩编码压缩格式算法文件扩展名是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否阅读全文

posted @ 2020-07-02 11:06 来自遥远的水星阅读(225) 评论(0) 推荐(0) 编辑

来自遥远的水星

07 2020 档案

积分与排名

随笔分类

随笔档案

阅读排行榜