2022 年 7月随笔档案 - +1000

Spark API

摘要：Spark API 创建spark环境方法一：SparkConf //spark环境配置对象 val conf = new SparkConf() //设置spark任务的名称 conf.setAppName("Demo1WordCount") //设置spark运行模式，local:本地运行 c 阅读全文

posted @ 2022-07-20 11:12 +1000 阅读(388) 评论(0) 推荐(0) 编辑

Spark WordCount

摘要：WordCount基本流程和spark实现 ####基本流程 1.创建spark环境 2.创建创建spark上下文对象，也就是spark写代码的入口 3.读取文件中的数据 4.首先将每一行数据展开，让每一个word单独一行 5.将word进行分组 6.对word出现的次数分别统计 7.将结果保存在新阅读全文

posted @ 2022-07-13 20:16 +1000 阅读(51) 评论(0) 推荐(0) 编辑

spark RDD

摘要：什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集 RDD是Spark中的抽象数据结构类型,Spark中最基本的数据抽象,实现了以操作本地集合的方式来操作分布式数据集的抽象实现，它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD具有数阅读全文

posted @ 2022-07-13 20:02 +1000 阅读(29) 评论(0) 推荐(0) 编辑

Spark 算子

摘要：Spark的算子的分类从大方向来说，Spark 算子大致可以分为以下两类: Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有阅读全文

posted @ 2022-07-13 19:50 +1000 阅读(99) 评论(0) 推荐(0) 编辑

spark与MapReduce的区别

摘要：spark与MapReduce的区别内存和磁盘的区别 spark最核心的概念是RDD（弹性分布式数据集），它的所有RDD在并行运算过程程中，可以做到数据共享，也就是可以重复使用mr在计算过程中 mapr：一次数据过程包含从共享文件系统读取数据、进行计算、完成计算、写入计算结果到共享存储中，在计算过阅读全文

posted @ 2022-07-11 21:57 +1000 阅读(1342) 评论(0) 推荐(0) 编辑

flume-day03 案例

摘要：使用案例在使用之前，提供一个大致思想，使用Flume的过程是确定scource类型，channel类型和sink类型，编写conf文件并开启服务，在数据捕获端进行传入数据流入到目的地。案例一、从控制台打入数据，在控制台显示 1、确定scource类型，channel类型和sink类型确定的使用阅读全文

posted @ 2022-07-10 21:05 +1000 阅读(23) 评论(0) 推荐(0) 编辑

flume-day02 flume安装

摘要：Flume的安装(解压即安装) 1、上传至虚拟机，并解压 tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/ 在环境变量中增加如下命令，可以使用 soft 快速切换到 /usr/local/soft alias soft='cd / 阅读全文

posted @ 2022-07-10 20:57 +1000 阅读(17) 评论(0) 推荐(0) 编辑

flume-day01 flume基本介绍

摘要：Flume架构 1.1 Hadoop业务开发流程 1.2 Flume概述 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据; 同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能阅读全文

posted @ 2022-07-10 20:56 +1000 阅读(127) 评论(0) 推荐(0) 编辑

HBase-day10 rowkey设计

摘要：HBase中rowkey的设计（重点！！） HBase的RowKey设计 HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowk 阅读全文

posted @ 2022-07-10 19:45 +1000 阅读(31) 评论(0) 推荐(0) 编辑

HBase-day09 HBase与Hive的集成

摘要：HBase与Hive的集成 HBase与Hive的对比 hive: 数据仓库：Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询。用于数据分析、清洗：Hive适用于离线的数据分析和清洗，延迟较高。基于HDFS、MapReduce：Hiv 阅读全文

posted @ 2022-07-10 19:44 +1000 阅读(25) 评论(0) 推荐(0) 编辑

HBase-day08 HBase优势

摘要：HBase适合存储PB级别的海量数据（百亿千亿量级条记录），如果根据记录主键Rowkey来查询，能在几十到百毫秒内返回数据。那么HBase是如何做到的呢？接下来，简单阐述一下数据的查询思路和过程。查询过程第1步：项目有100亿业务数据，存储在一个HBase集群上（由多个服务器数据节点构成）阅读全文

posted @ 2022-07-10 19:43 +1000 阅读(63) 评论(0) 推荐(0) 编辑

HBase-day07 Region的分裂策略

摘要：Region的分裂策略 region中存储的是一张表的数据，当region中的数据条数过多的时候，会直接影响查询效率。当region过大的时候，region会被拆分为两个region，HMaster会将分裂的region分配到不同的regionserver上，这样可以让请求分散到不同的RegionS 阅读全文

posted @ 2022-07-07 23:19 +1000 阅读(327) 评论(0) 推荐(0) 编辑

HBase-day06 HBase过滤器

摘要：JAVA API pom文件 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> <dependency> <groupId>org.ap 阅读全文

posted @ 2022-07-07 22:31 +1000 阅读(72) 评论(0) 推荐(0) 编辑

HBase-day05 HBase读写流程

摘要：HBase的读写流程 1.1 HBase读流程 Hbase读取数据的流程： 1）是由客户端发起读取数据的请求，首先会与zookeeper建立连接 2）从zookeeper中获取一个hbase:meta表位置信息，被哪一个regionserver所管理着 hbase:meta表：hbase的元数据表，阅读全文

posted @ 2022-07-07 08:53 +1000 阅读(33) 评论(0) 推荐(0) 编辑

HBase-day04 HBase Shell

posted @ 2022-07-06 16:07 +1000 阅读(29) 评论(0) 推荐(0) 编辑

HBase-day03 HBase集群搭建

摘要：HBase1.7.1安装搭建 4.1 hbase下载官网下载地址：https://www.apache.org/dyn/closer.lua/hbase/1.7.1/hbase-1.7.1-bin.tar.gz 4.2 前期准备（Hadoop,zookeeper,jdk）启动hadoop sta 阅读全文

posted @ 2022-07-06 09:45 +1000 阅读(29) 评论(0) 推荐(0) 编辑

HBase-day02 HBase系统架构

摘要：HBase系统架构 3.1 架构图 3.2 组件介绍 HBase由三种类型的服务器以主从模式构成： Region Server：负责数据的读写服务，用户通过与Region server交互来实现对数据的访问。 HBase HMaster：负责Region的分配及数据库的创建和删除等操作。 ZooKe 阅读全文

posted @ 2022-07-06 09:31 +1000 阅读(86) 评论(0) 推荐(0) 编辑

HBase-day01 HBase基本概述和相关概念

摘要：Hbase基本概述 1.1 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据 HBase是Hadoop的生态系统之一，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系阅读全文

posted @ 2022-07-05 16:51 +1000 阅读(226) 评论(0) 推荐(0) 编辑

Hive-day14 Hive优化

摘要：Hive优化 1.1 hive的随机抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置，sele 阅读全文

posted @ 2022-07-01 22:20 +1000 阅读(36) 评论(0) 推荐(0) 编辑

Hive-day13 Hive各种函数分类

摘要：Hive自定义函数UserDefineFunction UDF：一进一出定义UDF函数要注意下面几点: 继承org.apache.hadoop.hive.ql.exec.UDF 重写evaluate()，这个方法不是由接口定义的,因为它可接受的参数的个数,数据类型都是不确定的。Hive会检查UDF 阅读全文

posted @ 2022-07-01 22:19 +1000 阅读(44) 评论(0) 推荐(0) 编辑

Hive-day12 Hive行列转换

摘要：Hive 行转列 lateral view explode create table testArray2( name string, weight array<string> )row format delimited fields terminated by '\t' COLLECTION IT 阅读全文

posted @ 2022-07-01 21:42 +1000 阅读(29) 评论(0) 推荐(0) 编辑

Hive-day11 Hive窗口函数

摘要：Hive窗口函数普通的聚合函数每组(Group by)只返回一个值，而开窗函数则可为窗口中的每行都返回一个值。简单理解，就是对查询的结果多出一列，这一列可以是聚合值（聚合开窗函数），也可以是排序值（排序开窗函数）。开窗函数一般就是说的是over（）函数，其窗口是由一个 OVER 子句定义的多阅读全文

posted @ 2022-07-01 21:38 +1000 阅读(42) 评论(0) 推荐(0) 编辑

Hive-day10 DQL和Hive内置函数

摘要：Hive查询语法(DQL) 全局排序 order by 会对输入做全局排序，因此在执行MapReduce任务时只有一个reducer，这会导致当输入规模较大时，需要较长的计算时间。因为所有的数据都要经过唯一的reducer，所以数据大的情况下，一个reducer的处理速度有限使用 order by 阅读全文

posted @ 2022-07-01 21:05 +1000 阅读(43) 评论(0) 推荐(0) 编辑

Hive-day09 HiveJDBC

摘要：Hive JDBC 启动hiveserver2 在使用Hive JDBC之前必须先启动客服端服务，这样用其他节点，或者idea就可以连接hive数据库，命令为： hive --service hiveserver2 & 或者 hiveserver2 & 新建maven项目并添加两个依赖 <depen 阅读全文

posted @ 2022-07-01 20:52 +1000 阅读(25) 评论(0) 推荐(0) 编辑

搜索

常用链接

随笔分类

随笔档案

阅读排行榜