2022 年 5月随笔档案 - CHANG_09

Hive安装部署

摘要：1）把apache-hive-3.1.2-bin.tar.gz上传到linux的/opt/software目录下 2）解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面 [atguigu@hadoop102 software]$ tar -zxvf /op 阅读全文

posted @ 2022-05-31 19:34 CHANG_09 阅读(58) 评论(0) 推荐(0) 编辑

Sqoop安装

摘要：2.3.1 下载并解压 1）下载地址：http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2）上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop102的/opt/software路径中 3）解压sqo 阅读全文

posted @ 2022-05-31 19:29 CHANG_09 阅读(284) 评论(0) 推荐(0) 编辑

业务数据建模

摘要：可借助EZDML这款数据库设计工具，来辅助我们梳理复杂的业务表关系。 1）下载地址 http://www.ezdml.com/download_cn.html 2）使用说明（1）新建模型（2）命名模型（3）点击图标，选中模型（4）导入数据库（5）配置数据库连接（6）选择导入的表（7）建阅读全文

posted @ 2022-05-31 18:53 CHANG_09 阅读(207) 评论(0) 推荐(0) 编辑

MySQL安装

摘要：2.1.1 安装包准备 1）卸载自带的Mysql-libs（如果之前安装过mysql，要全都卸载掉） [atguigu@hadoop102 software]$ rpm -qa | grep -i -E mysql\|mariadb | xargs -n1 sudo rpm -e --nodeps 阅读全文

posted @ 2022-05-31 18:47 CHANG_09 阅读(39) 评论(0) 推荐(0) 编辑

怎么用spark做数据清洗

摘要：数据清洗的目的是为了保证数据质量，包括数据的完整性、唯一性、一致性、合法性和权威性。数据清洗的结果是对各种脏数据进行对应的处理方式，从而得到标准的、干净的、连续的数据，提供给数据统计和数据挖掘使用。解决数据的完整性问题： (1) 通过其他信息不全；(2) 通过前后数据不全；(3) 如果实在无法不全阅读全文

posted @ 2022-05-31 18:43 CHANG_09 阅读(252) 评论(0) 推荐(0) 编辑

Checkpoint 和持久化机制的区别

摘要：最主要的区别在于持久化只是将数据保存在 BlockManager 中，但是 RDD 的 lineage(血缘关系，依赖关系)是不变的。但是 checkpoint 执行完之后，rdd 已经没有之前所谓的依赖 rdd了，而只有一个强行为其设置的 checkpointRDD，checkpoint 之后阅读全文

posted @ 2022-05-31 18:42 CHANG_09 阅读(118) 评论(0) 推荐(0) 编辑

Checkpoint 检查点机制

摘要：应用场景：当 spark 应用程序特别复杂，从初始的 RDD 开始到最后整个应用程序完成有很多的步骤，而且整个应用运行时间特别长，这种情况下就比较适合使用 checkpoint 功能。原因：对于特别复杂的 Spark 应用，会出现某个反复使用的 RDD，即使之前持久化过但由于节点的故障导致数据丢失阅读全文

posted @ 2022-05-31 18:41 CHANG_09 阅读(183) 评论(0) 推荐(0) 编辑

RDD 持久化原理？

摘要：spark 非常重要的一个功能特性就是可以将 RDD 持久化在内存中。调用 cache()和 persist()方法即可。cache()和 persist()的区别在于，cache()是 persist()的一种简化方式，cache()的底层就是调用 persist()的无参版本 persist( 阅读全文

posted @ 2022-05-31 18:38 CHANG_09 阅读(73) 评论(0) 推荐(0) 编辑

Hadoop MR 和 Spark 的相同点和不同点？

摘要：Hadoop 底层使用 MapReduce 计算架构，只有 map 和 reduce 两种操作，表达能力比较欠缺，而且在 MR 过程中会重复的读写 hdfs，造成大量的磁盘 io 读写操作，所以适合高时延环境下批处理计算的应用； Spark 是基于内存的分布式计算架构，提供更加丰富的数据集操作类型，阅读全文

posted @ 2022-05-31 16:48 CHANG_09 阅读(183) 评论(0) 推荐(0) 编辑

hive 优化有哪些？

摘要：(1) 数据存储及压缩。针对hive中表的存储格式通常有orc和parquet，压缩格式一般使用snappy。相比与textfile格式表，orc 占有更少的存储。因为 hive 底层使用 MR 计算架构，数据流是 hdfs 到磁盘再到hdfs，而且会有很多次，所以使用 orc 数据格式和阅读全文

posted @ 2022-05-31 16:45 CHANG_09 阅读(176) 评论(0) 推荐(0) 编辑

HDFS NameNode Hadoop怎么分片

摘要：HDFS 上传文件和读文件的流程 (1)由客户端 Client 向 NameNode 节点发出请求; (2)NameNode 向 Client 返回可以存数据的 DataNode 列表，这里遵循机架感应原则(把副本分别放在不同的机架，甚至不同的数据中心); (3)客户端首先根据返回的信息先将文件分块阅读全文

posted @ 2022-05-31 16:25 CHANG_09 阅读(126) 评论(0) 推荐(0) 编辑

数据量对汇聚到一个机器上计算了，即数据倾斜，如何解决？有哪几种方法？

摘要：hiveSql 有做优化阅读全文

posted @ 2022-05-29 21:54 CHANG_09 阅读(21) 评论(0) 推荐(0) 编辑

Dwd如何数据清洗？如何确定是完整的数据？

摘要：如果是非空，那么清洗哪个字段为非空？为什么？ hive的自定义函数（里面有对数据进行过滤）UDF和UDAF 阅读全文

posted @ 2022-05-29 21:34 CHANG_09 阅读(128) 评论(0) 推荐(0) 编辑

Hive的架构？优化？

摘要：hdfs + yarnlzo 压缩：减少磁盘空间占用tez 引擎：不是只有MR，更灵活，运算更快列式存储 : 行转列 text -> parquet sql explain ： join where 先 where 后 join hql -> mr ：解析编译优化执行阅读全文

posted @ 2022-05-29 21:11 CHANG_09 阅读(31) 评论(0) 推荐(0) 编辑

Zookeeper有什么作用？优缺点？有什么应用场景？

摘要：作用 Zookeeper作用包括存储数据（文件系统）和监听（监听通知机制）优点 1）分布式协调过程简单 2）同步：zk高度同步，这意味着服务器进程之间既存在互斥又存在合作，同步有助于Apache HBase进行配置管理。 3）有序消息：zk跟踪一个数字，表示每个更新的顺序，保证消息有序 4）序列化阅读全文

posted @ 2022-05-29 20:17 CHANG_09 阅读(1075) 评论(0) 推荐(0) 编辑

Flume组成：Put事务+Take事务

摘要： Source到Channel是Put事务 Channel到Sink是Take事务 doPut 先将放入 putlist commit 成功才更新 offset 失败回滚 doTake 同理 Taildir Source：断点续传、多目录。Flume1.6以前需要自己自定义Source记阅读全文

posted @ 2022-05-29 20:02 CHANG_09 阅读(58) 评论(0) 推荐(0) 编辑

Flume拦截器

摘要：（1）拦截器注意事项项目中自定义了：ETL拦截器和区分类型拦截器。采用两个拦截器优点，模块化开发和可移植性；缺点，性能会低一些（2）自定义拦截器步骤a）实现 Interceptor b）重写四个方法 initialize 初始化 public Event intercept(Even 阅读全文

posted @ 2022-05-29 20:01 CHANG_09 阅读(55) 评论(0) 推荐(0) 编辑

Kafka订阅消费是什么？主动推送是什么？主动拉取是什么？二者有什么区别

摘要：消息队列主动推送消息给对应订阅的消费者，不好之处就是不知道消费者处理的速度如何，还有就是消费者没办法控制消息发送的速度。消费者主动拉取消息队列中的数据，不好之处是消费者因为需要经常去询问是否有数据需要一直有一个循环去询问，建议在循环里面增加sleep，如果没有拉取到数据就阅读全文

posted @ 2022-05-29 19:59 CHANG_09 阅读(612) 评论(0) 推荐(0) 编辑

HiveSQL 转换为 MR 的过程

摘要：解析器：解析hql 遍历抽象语法树抽象出查询基本单位查询块编译器：遍历查询块生成操作树（即最初的执行逻辑）优化器：合并不必要的job,减少shuffle 生成任务树（即最终执行逻辑）执行器：执行任务树阅读全文

posted @ 2022-05-29 19:50 CHANG_09 阅读(143) 评论(0) 推荐(0) 编辑

轮询

摘要：由CPU定时发出询问，依序询问每一个周边设备是否需要其服务，有即给予服务，服务结束后再问下一个周边，接着不断周而复始。中断方式和轮询方式的区别中断机制不仅赋予了我处理意外情况的能力，如果我能充分发挥这个机制的妙用，就可以“同时”完成多个任务了，轮询(olling)I/O方式或程序控制I/O 阅读全文

posted @ 2022-05-29 19:42 CHANG_09 阅读(41) 评论(0) 推荐(0) 编辑

Flume如何实现负载均衡？

摘要：负载均衡是用于解决一台机器（一个进程）无法解决所有请求，多个进程一起处理的场景而产生的一种算法。同一个请求只能交给一个进程处理，可以避免数据重复。均衡分配请求可以采用： 1)轮询（round_robin）； 2)随机（random）。阅读全文

posted @ 2022-05-29 19:36 CHANG_09 阅读(60) 评论(0) 推荐(0) 编辑

Flume会不会出现数据重复采集？

摘要：断点续传实现flume采集的断点续传,接着崩溃的最后采集索引继续采集;对收集过的历史文件进行备份处理; 实现flume采集的断点续传,接着崩溃的最后采集索引继续采集;对收集过的历史文件进行备份处理; 消费组ID完全一样的,这样采集到的数据才不会重复的阅读全文

posted @ 2022-05-29 19:32 CHANG_09 阅读(149) 评论(0) 推荐(0) 编辑

事务的 4个属性

摘要：原子性、一致性、隔离性、持久性。通常称为 A C I D 特性。原子性（atomicity）。一个事务是一个不可分割的工作单位，事务中包括的诸操作要么都做，要么都不做。一致性（consistency）。事务必须是使数据库从一个一致性状态变到另一个一致性状态。一致性与原子性是密切相关的。隔离性阅读全文

posted @ 2022-05-29 19:23 CHANG_09 阅读(119) 评论(0) 推荐(0) 编辑

Flume的特点

摘要：Flume是一个分布式、可靠、和高可用的海量日志采集、汇聚和传输的系统。阅读全文

posted @ 2022-05-29 19:22 CHANG_09 阅读(59) 评论(0) 推荐(0) 编辑

Flume如何保证数据不丢失？

摘要：其一：flume使用两个独立的事务分别负责从source到channel以及从channel到sink的事件传递，source向channel写数据时会先将数据写入临时缓冲区putlist，然后检查channel是否可以写入，如果写入成功会更新偏移量，如果不成功就回滚数据， channel到sink 阅读全文

posted @ 2022-05-29 19:20 CHANG_09 阅读(442) 评论(0) 推荐(0) 编辑

为什么hdfs不适合存储小文件？

摘要：1.小文件数量过多（例如图片）会占用批量占用namenode的内存，浪费block因为每个储存在HDFS中的文件的元数据（包括目录树，位置信息，命名空间镜像，文件编辑信息）都会在namenode中占用150b的内存，如果namenode存储空间满了，就不能继续存储新文件了。2.如果有多小文件，会造阅读全文

posted @ 2022-05-29 19:18 CHANG_09 阅读(359) 评论(0) 推荐(0) 编辑

hive --service metastore

摘要：hiveserver2：如果要通过jdbc连接hive，则需要启动hiveserver2。常见jdbc客户端：beeline bin/hive --service metastore & metastore：提供一个数据接口，获取hive元数据。获取获取元数据的方式：1直连mysql获取2连接met 阅读全文

posted @ 2022-05-28 08:08 CHANG_09 阅读(797) 评论(0) 推荐(0) 编辑

Scala : spark 连接 hive 的两种方式

摘要：在pom中添加依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instan 阅读全文

posted @ 2022-05-27 14:57 CHANG_09 阅读(673) 评论(0) 推荐(0) 编辑

Flume组件

摘要：1）FileChannel和MemoryChannel区别 MemoryChannel传输数据速度更快，但因为数据保存在JVM的堆内存中，Agent进程挂掉会导致数据丢失，适用于对数据质量要求不高的需求。 FileChannel传输速度相对于Memory慢，但数据安全保障高，Agent进程挂掉也可以阅读全文

posted @ 2022-05-25 22:56 CHANG_09 阅读(78) 评论(0) 推荐(0) 编辑

Flume内存优化

摘要：1）问题描述：如果启动消费Flume抛出如下异常 ERROR hdfs.HDFSEventSink: process failed java.lang.OutOfMemoryError: GC overhead limit exceeded 2）解决方案步骤：（1）在hadoop102服务器的/o 阅读全文

posted @ 2022-05-25 22:54 CHANG_09 阅读(344) 评论(0) 推荐(0) 编辑

UDTF 函数模板

摘要：- /*-- 1653219286244|{"cm":{"ln":"-39.0","sv":"V2.4.3","os":"8.1.3","g":"QK98H42I@gmai"mid":"998","nw":"WIFI","l":"es","vc":"13"," 阅读全文

posted @ 2022-05-25 21:16 CHANG_09 阅读(75) 评论(0) 推荐(0) 编辑

Hadoop 常用端口号

摘要：hadoop3.x HDFS NameNode 内部通常端口：8020、9000、9820 HDFS NameNode 对用户的查询端口：9870 Yarn查看任务运行情况的端口：8088 历史服务器：19888 阅读全文

posted @ 2022-05-25 18:42 CHANG_09 阅读(1024) 评论(0) 推荐(0) 编辑

linux centos7 修改系统时间定时同步 npt.api.bz 服务器(上海)

摘要：使用 date -s 修改系统的当前时间 # date -s 20:20:30 # date -s 2018-5-5 安装ntp # yum install ntp 同步 ntp.api.bz NTP服务器(上海) 时间，写入bios 防止重启失效。 # ntpdate npt.api.bz# h 阅读全文

posted @ 2022-05-25 18:31 CHANG_09 阅读(248) 评论(0) 推荐(0) 编辑

Linux 安装编译环境修改pom

摘要：环境准备maven（下载安装，配置环境变量，修改sitting.xml加阿里云镜像）gcc-c++zlib-develautoconfautomakelibtoolmaven通过yum安装即可 yum -y install gcc-c++ lzo-devel zlib-devel autoconf 阅读全文

posted @ 2022-05-24 21:47 CHANG_09 阅读(152) 评论(0) 推荐(0) 编辑

Centos7 换源 yum 阿里源

摘要：备份原来的源 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup 下载阿里的yum源 curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirror 阅读全文

posted @ 2022-05-24 20:16 CHANG_09 阅读(2781) 评论(0) 推荐(0) 编辑

数仓选型

摘要：阅读全文

posted @ 2022-05-24 20:08 CHANG_09 阅读(27) 评论(0) 推荐(0) 编辑

Linux 根目录磁盘空间 (/dev/sda3) 扩容

摘要：删快照拍快照 df -h fdisk -l fdisk /dev/sda partprobe /dev/sda 通知系统内核分区表的变化 resize2fs /dev/sda3 重新调整文件系统大小 df -h 阅读全文

posted @ 2022-05-23 14:56 CHANG_09 阅读(4129) 评论(0) 推荐(0) 编辑

扩容

摘要：1、查看磁盘信息，标红的为新增的磁盘空间 lsblk fdisk -l 2、使用fdisk命令，创建新分区参考：https://blog.51cto.com/12185273/2048111root@localhost# fdisk /dev/sdb 执行= 对其进行分区n——新建分区p——新建主分阅读全文

posted @ 2022-05-21 10:44 CHANG_09 阅读(83) 评论(0) 推荐(0) 编辑

windows 环境变量立即生效

摘要：修改完成后，进入DOS命令提示符，输入： set PATH=C: 关闭DOS窗口。再次打开DOS窗口，输入： echo %PATH% 阅读全文

posted @ 2022-05-09 15:50 CHANG_09 阅读(527) 评论(0) 推荐(0) 编辑

为什么要拉宽数据

摘要：数据的字段不够用，为了满足数据开发的要求阅读全文

posted @ 2022-05-09 08:56 CHANG_09 阅读(50) 评论(0) 推荐(0) 编辑

分层架构的优缺点

摘要：分层架构的好处： 1. 分层架构的目的是通过关注点分离来降低系统的复杂度。分层后数据逻辑清晰，便于数据的开发和维护。 2. 同时满足单一职责、高内聚、低耦合 3. 提高可复用性和降低维护成本。单一职责：每一层只负责一个职责，职责边界清晰，如持久层只负责数据查询和存储，领域层只负责处阅读全文

posted @ 2022-05-09 08:53 CHANG_09 阅读(820) 评论(0) 推荐(0) 编辑

Elasticsearch搭建集群步骤：

摘要：Elasticsearch搭建集群步骤： (1). 解压文件到指定目录。 (2). 修改elasticsearch.yml配置文件： [root@hadoop102 elasticsearch]# vim /opt/module/elasticsearch/config/elasticsearch. 阅读全文

posted @ 2022-05-06 20:30 CHANG_09 阅读(78) 评论(0) 推荐(0) 编辑

CHANG_09

05 2022 档案

公告

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论