2022 年 5月随笔档案 - 晓枫的春天

RDD 依赖关系

摘要：1、血缘关系&依赖关系 RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。血缘关系阅读全文

posted @ 2022-05-30 05:45 晓枫的春天阅读(92) 评论(0) 推荐(0) 编辑

Spark 程序打包在集群运行

摘要：环境准备 1、pom 文件引入相关依赖&插件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</versio 阅读全文

posted @ 2022-05-27 22:18 晓枫的春天阅读(156) 评论(0) 推荐(0) 编辑

RDD 序列化

摘要：问题引入想看一个需求：定义一个用户类，有一个name 属性和toSting方法： class User { var name: String = _ override def toString: String = s"User{$name}" } 现在要声明两个对象并给name 属性赋值，然后将阅读全文

posted @ 2022-05-26 20:53 晓枫的春天阅读(47) 评论(0) 推荐(0) 编辑

Spark 运行模式（Standalone 模式）

摘要：1、Driver & Executor Driver & Executor 是Spark 集群中两个非常重要的角色； 2、Standalone 模式 Standalone模式是Spark自带的资源调动引擎，构建一个由Master + Slave构成的Spark集群，Spark运行在集群中。这个要和H 阅读全文

posted @ 2022-05-24 15:52 晓枫的春天阅读(1906) 评论(0) 推荐(0) 编辑

IDEA 自定义快捷键

摘要：设置快捷键的原因近期在梳理Spark ，为了便于获取上下文对象：即以下代码 //获取 SparkConf 并设置应用名称*本地模式 val conf: SparkConf = new SparkConf().setAppName("Spark").setMaster("local[8]") //获阅读全文

posted @ 2022-05-23 07:26 晓枫的春天阅读(148) 评论(0) 推荐(0) 编辑

Spark 运行模式（local）

摘要：1、Spark 运行模式说明部署Spark集群大体上分为两种模式：单机模式与集群模式；大多数分布式框架都支持单机模式，方便开发者调试框架的运行环境。但是在生产环境中，并不会使用单机模式。因此，后续直接按照集群模式部署Spark集群。下面详细列举了Spark目前支持的部署模式。 Local模式：在本阅读全文

posted @ 2022-05-22 22:40 晓枫的春天阅读(922) 评论(0) 推荐(0) 编辑

Hbase 整合Phoenix

摘要：1、Phoenix 简介 Phoenix 是 Hbase 的开源的 SQL 皮肤，可以使用标准的JDBC API 代替HBase 客户端 API来创建表，插入和查询Hbase数据. Phoenix 特点：易集成：如 Spark,Hive，Pig,Flume 等操作进度：DML/DDL 支持和SQ 阅读全文

posted @ 2022-05-21 20:53 晓枫的春天阅读(345) 评论(0) 推荐(0) 编辑

Hbase APi

摘要：1、引入依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>2.4.11</version> </dependency> <dependency> <gr 阅读全文

posted @ 2022-05-20 11:26 晓枫的春天阅读(65) 评论(0) 推荐(0) 编辑

Hbase 运行原理

摘要：1、架构原理 StoreFile:保存实际数据的物理文件，StoreFile以HFile的形式存储在HDFS上。每个Store会有一个或多个StoreFile（HFile），数据在每个StoreFile中都是有序的。 MemStore:写缓存，由于HFile中的数据要求是有序的，所以数据是先存储在M 阅读全文

posted @ 2022-05-19 21:00 晓枫的春天阅读(140) 评论(0) 推荐(1) 编辑

Hbase shell 基本操作

摘要：1、数据库操作 1、进入 hbase 客户端、帮助命令 [hui@hadoop201 conf]$ hbase shell help 2、查看所有库 namespace 也称之为命名空间 hbase:008:0> list_namespace NAMESPACE default hbase hba 阅读全文

posted @ 2022-05-16 21:25 晓枫的春天阅读(352) 评论(0) 推荐(0) 编辑

Hbase 集群部署

摘要：1、部署说明 1.1、Java 版本集群安装的jdk 版本是 [hui@hadoop201 ~]$ chkall.sh echo $JAVA_HOME hadoop201 /opt/module/jdk1.8 hadoop202 /opt/module/jdk1.8 hadoop203 /opt/ 阅读全文

posted @ 2022-05-11 17:28 晓枫的春天阅读(97) 评论(0) 推荐(0) 编辑

Hbase 简介

摘要：1、Hbase 简介 1.1、Hbase 定义 hbase 是一种基于 HDFS 存储的分布式、可扩展、支持海量数据存储的NoSQL数据库。可以实现，对海量数据的增删改查、 NoSQL = Not Only SQL,Hbase 源于谷歌的 Bigtable 的开源，依赖于 Hadoop 的 hd 阅读全文

posted @ 2022-05-10 12:06 晓枫的春天阅读(514) 评论(0) 推荐(0) 编辑

hbase 启动 java.lang.IllegalStateException: The procedure WAL relies on the ability to hsync for proper operation during component failures, but the underlying filesystem does not support doing so.

摘要：问题场景今天刚装完hbase,启动后，主节点的 HMaster 直接挂了，但是 backup-masters 启动了，查看了主节点的 master 的日志如下： 2022-05-09 15:51:16,355 INFO [Thread-14] wal.ProcedureWALFile: Arch 阅读全文

posted @ 2022-05-09 08:13 晓枫的春天阅读(193) 评论(0) 推荐(0) 编辑

首单分析（二）

摘要：1、数据采集——maxwell 实现 1.1、maxwell 介绍 Maxwell 是由美国zendesk开源，用java编写的Mysql实时抓取软件，其抓取的原理也是基于binlog。 1.2、maxwell 与 canal 对比 Maxwell没有canal那种server+client模式，只阅读全文

posted @ 2022-05-08 08:28 晓枫的春天阅读(48) 评论(0) 推荐(0) 编辑

CentOS7 修改环境变量后导致命令失效

摘要：问题场景今天在装 hbase ，刚配置环境变量source 后发现常用的命令都无法使用了 [hui@hadoop201 ~]$ ll -bash: ls: command not found [hui@hadoop201 ~]$ ls -bash: ls: command not found 问阅读全文

posted @ 2022-05-07 06:15 晓枫的春天阅读(1086) 评论(0) 推荐(0) 编辑

首单分析（一）

摘要：1、需求分析 1.1、当日新增付费用户分析按省份|用户性别|用户年龄段，统计当日新增付费用户首单平均消费及人数占比无论是省份名称、用户性别、用户年龄，订单表中都没有这些字段，需要订单（事实表）和维度表（省份、用户）进行关联，形成宽表后将数据写入到ES，通过Kibana进行分析以及图形展示。 1.2 阅读全文

posted @ 2022-05-06 12:14 晓枫的春天阅读(193) 评论(0) 推荐(0) 编辑

日活需求

摘要：1、需求分析&实现思路 1.1、用户首次登录趋势图从项目的日志中获取用户的启动日志，如果是当日第一次启动，纳入统计。将统计结果保存到ES中，利用Kibana进行分析展示 1.2、实现思路第一步：SparkStreaming 消费Kafka数据：Kafka作为数据来源，从kafka中获取日志，ka 阅读全文

posted @ 2022-05-05 08:54 晓枫的春天阅读(114) 评论(0) 推荐(0) 编辑

封装工具类

摘要：今天把项目所需一些工具类进行封装，主要包括一下工具类配置文件加载工具 ES相关工具 Redis 工具 kafka 工具 Offset 维护工具 1、配置文件加载工具类配置文件主要记录些 redis kfka 等相关组件的配置信息，需要有一个工具来对配置文件进行加载。 import java.io 阅读全文

posted @ 2022-05-04 17:19 晓枫的春天阅读(322) 评论(0) 推荐(0) 编辑

ElasticSerach（四）

摘要：今天主要介绍ES API 1、准备工作 1.1、创建 maven 工程引入依赖  <dependency> <groupId>io.searchbox</groupId> <artifactId>jest</artifactId> <version> 阅读全文

posted @ 2022-05-01 20:33 晓枫的春天阅读(45) 评论(0) 推荐(0) 编辑

滴水穿石不是靠力，而是因为不舍昼夜。

05 2022 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论