博客园 首页 私信博主 显示目录 隐藏目录 管理 动画

05 2022 档案

摘要:1)把apache-hive-3.1.2-bin.tar.gz上传到linux的/opt/software目录下 2)解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面 [atguigu@hadoop102 software]$ tar -zxvf /op 阅读全文
posted @ 2022-05-31 19:34 CHANG_09 阅读(58) 评论(0) 推荐(0) 编辑
摘要:2.3.1 下载并解压 1)下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2)上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop102的/opt/software路径中 3)解压sqo 阅读全文
posted @ 2022-05-31 19:29 CHANG_09 阅读(284) 评论(0) 推荐(0) 编辑
摘要:可借助EZDML这款数据库设计工具,来辅助我们梳理复杂的业务表关系。 1)下载地址 http://www.ezdml.com/download_cn.html 2)使用说明 (1)新建模型 (2)命名模型 (3)点击图标,选中模型 (4)导入数据库 (5)配置数据库连接 (6)选择导入的表 (7)建 阅读全文
posted @ 2022-05-31 18:53 CHANG_09 阅读(207) 评论(0) 推荐(0) 编辑
摘要:2.1.1 安装包准备 1)卸载自带的Mysql-libs(如果之前安装过mysql,要全都卸载掉) [atguigu@hadoop102 software]$ rpm -qa | grep -i -E mysql\|mariadb | xargs -n1 sudo rpm -e --nodeps 阅读全文
posted @ 2022-05-31 18:47 CHANG_09 阅读(39) 评论(0) 推荐(0) 编辑
摘要:数据清洗的目的是为了保证数据质量,包括数据的完整性、唯一性、一致性、合法性和权威性。数据清洗的结果是对各种脏数据进行对应的处理方式,从而得到标准的、干净的、连续的数据,提供给数据统计和数据挖掘使用。 解决数据的完整性问题: (1) 通过其他信息不全;(2) 通过前后数据不全;(3) 如果实在无法不全 阅读全文
posted @ 2022-05-31 18:43 CHANG_09 阅读(252) 评论(0) 推荐(0) 编辑
摘要:最主要的区别在于持久化只是将数据保存在 BlockManager 中,但是 RDD 的 lineage(血缘关系,依赖关系)是不变的。 但是 checkpoint 执行完之后,rdd 已经没有之前所谓的依赖 rdd了,而只有一个强行为其设置的 checkpointRDD,checkpoint 之后 阅读全文
posted @ 2022-05-31 18:42 CHANG_09 阅读(118) 评论(0) 推荐(0) 编辑
摘要:应用场景:当 spark 应用程序特别复杂,从初始的 RDD 开始到最后整个应用程序完成有很多的步骤,而且整个应用运行时间特别长,这种情况下就比较适合使用 checkpoint 功能。 原因:对于特别复杂的 Spark 应用,会出现某个反复使用的 RDD,即使之前持久化过但由于节点的故障导致数据丢失 阅读全文
posted @ 2022-05-31 18:41 CHANG_09 阅读(183) 评论(0) 推荐(0) 编辑
摘要:spark 非常重要的一个功能特性就是可以将 RDD 持久化在内存中。 调用 cache()和 persist()方法即可。cache()和 persist()的区别在于,cache()是 persist()的一种简化方式,cache()的底层就是调用 persist()的无参版本 persist( 阅读全文
posted @ 2022-05-31 18:38 CHANG_09 阅读(73) 评论(0) 推荐(0) 编辑
摘要:Hadoop 底层使用 MapReduce 计算架构,只有 map 和 reduce 两种操作,表达能力比较欠缺,而且在 MR 过程中会重复的读写 hdfs,造成大量的磁盘 io 读写操作,所以适合高时延环境下批处理计算的应用; Spark 是基于内存的分布式计算架构,提供更加丰富的数据集操作类型, 阅读全文
posted @ 2022-05-31 16:48 CHANG_09 阅读(183) 评论(0) 推荐(0) 编辑
摘要:(1) 数据存储及压缩。 针对hive中表的存储格式通常有orc和parquet,压缩格式一般使用snappy。 相比与textfile格式表,orc 占有更少的存储。 因为 hive 底层使用 MR 计算架构,数据流是 hdfs 到磁盘再到hdfs,而且会有很多次, 所以使用 orc 数据格式和 阅读全文
posted @ 2022-05-31 16:45 CHANG_09 阅读(176) 评论(0) 推荐(0) 编辑
摘要:HDFS 上传文件和读文件的流程 (1)由客户端 Client 向 NameNode 节点发出请求; (2)NameNode 向 Client 返回可以存数据的 DataNode 列表,这里遵循机架感应原则(把副本分别放在不同的机架,甚至不同的数据中心); (3)客户端首先根据返回的信息先将文件分块 阅读全文
posted @ 2022-05-31 16:25 CHANG_09 阅读(126) 评论(0) 推荐(0) 编辑
摘要:如果是非空,那么清洗哪个字段为非空?为什么? hive的自定义函数(里面有对数据进行过滤)UDF和UDAF 阅读全文
posted @ 2022-05-29 21:34 CHANG_09 阅读(128) 评论(0) 推荐(0) 编辑
摘要:hdfs + yarnlzo 压缩 : 减少磁盘空间占用tez 引擎 : 不是只有MR,更灵活,运算更快列式存储 : 行转列 text -> parquet sql explain : join where 先 where 后 join hql -> mr : 解析 编译 优化 执行 阅读全文
posted @ 2022-05-29 21:11 CHANG_09 阅读(31) 评论(0) 推荐(0) 编辑
摘要:作用 Zookeeper作用包括存储数据(文件系统)和监听(监听通知机制) 优点 1)分布式协调过程简单 2)同步:zk高度同步,这意味着服务器进程之间既存在互斥又存在合作,同步有助于Apache HBase进行配置管理。 3)有序消息:zk跟踪一个数字,表示每个更新的顺序,保证消息有序 4)序列化 阅读全文
posted @ 2022-05-29 20:17 CHANG_09 阅读(1075) 评论(0) 推荐(0) 编辑
摘要:​ Source到Channel是Put事务 ​ Channel到Sink是Take事务 doPut 先将放入 putlist commit 成功 才更新 offset 失败回滚 doTake 同理 ​ Taildir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记 阅读全文
posted @ 2022-05-29 20:02 CHANG_09 阅读(58) 评论(0) 推荐(0) 编辑
摘要:(1)拦截器注意事项项目中自定义了:ETL拦截器和 区分类型 拦截器。 采用两个拦截器 优点,模块化开发 和 可移植性; 缺点,性能会低一些 (2)自定义拦截器步骤a)实现 Interceptor b)重写四个方法 initialize 初始化 public Event intercept(Even 阅读全文
posted @ 2022-05-29 20:01 CHANG_09 阅读(55) 评论(0) 推荐(0) 编辑
摘要:消息队列 主动推送消息 给对应订阅的消费者, 不好之处就是不知道 消费者 处理的速度如何,还有就是 消费者 没办法控制消息发送的速度。 消费者 主动拉 取消息队列中的数据,不好之处是 消费者 因为需要经常去询问是否有数据 需要一直有一个循环去询问, 建议在循环里面增加sleep,如果没有拉取到数据就 阅读全文
posted @ 2022-05-29 19:59 CHANG_09 阅读(612) 评论(0) 推荐(0) 编辑
摘要:解析器: 解析hql 遍历抽象语法树 抽象出查询基本单位 查询块 编译器: 遍历查询块 生成操作树 (即最初的执行逻辑)优化器: 合并不必要的job,减少shuffle 生成任务树 (即最终执行逻辑)执行器: 执行任务树 阅读全文
posted @ 2022-05-29 19:50 CHANG_09 阅读(143) 评论(0) 推荐(0) 编辑
摘要:由CPU定时发出询问,依序询问每一个周边设备是否需要其服务,有即给予服务,服务结束后再问下一个周边,接着不断周而复始。 中断方式 和 轮询方式 的区别 中断机制不仅赋予了我处理意外情况的能力,如果我能充分发挥这个机制的妙用,就可以“同时”完成多个任务了,轮询(olling)I/O方式或程序控制I/O 阅读全文
posted @ 2022-05-29 19:42 CHANG_09 阅读(41) 评论(0) 推荐(0) 编辑
摘要:负载均衡是用于解决一台机器(一个进程)无法解决所有请求,多个进程一起处理的场景而产生的一种算法。同一个请求只能交给一个进程处理,可以避免数据重复。均衡分配请求可以采用: 1)轮询(round_robin); 2)随机(random)。 阅读全文
posted @ 2022-05-29 19:36 CHANG_09 阅读(60) 评论(0) 推荐(0) 编辑
摘要:断点续传 实现flume采集的断点续传,接着崩溃的最后采集索引继续采集;对收集过的历史文件进行备份处理; 实现flume采集的断点续传,接着崩溃的最后采集索引继续采集;对收集过的历史文件进行备份处理; 消费组ID完全一样的,这样采集到的数据才不会重复的 阅读全文
posted @ 2022-05-29 19:32 CHANG_09 阅读(149) 评论(0) 推荐(0) 编辑
摘要:原子性、一致性、隔离性、持久性。 通常称为 A C I D 特性。 原子性(atomicity)。一个事务是一个不可分割的工作单位,事务中包括的诸操作要么都做,要么都不做。 一致性(consistency)。事务必须是使数据库从一个一致性状态变到另一个一致性状态。一致性与原子性是密切相关的。 隔离性 阅读全文
posted @ 2022-05-29 19:23 CHANG_09 阅读(119) 评论(0) 推荐(0) 编辑
摘要:Flume是一个 分布式、可靠、和高可用 的 海量 日志采集、汇聚和 传输 的系统。 阅读全文
posted @ 2022-05-29 19:22 CHANG_09 阅读(59) 评论(0) 推荐(0) 编辑
摘要:其一:flume使用两个独立的事务分别负责从source到channel以及从channel到sink的事件传递,source向channel写数据时会先将数据写入临时缓冲区putlist,然后检查channel是否可以写入,如果写入成功会更新偏移量,如果不成功就回滚数据, channel到sink 阅读全文
posted @ 2022-05-29 19:20 CHANG_09 阅读(442) 评论(0) 推荐(0) 编辑
摘要:1.小文件数量过多(例如图片)会占用批量占用namenode的内存,浪费block因为每个储存在HDFS中的文件的元数据(包括目录树,位置信息,命名空间镜像,文件编辑信息) 都会在namenode中占用150b的内存,如果namenode存储空间满了,就不能继续存储新文件了。2.如果有多小文件,会造 阅读全文
posted @ 2022-05-29 19:18 CHANG_09 阅读(359) 评论(0) 推荐(0) 编辑
摘要:hiveserver2:如果要通过jdbc连接hive,则需要启动hiveserver2。常见jdbc客户端:beeline bin/hive --service metastore & metastore:提供一个数据接口,获取hive元数据。获取获取元数据的方式:1直连mysql获取2连接met 阅读全文
posted @ 2022-05-28 08:08 CHANG_09 阅读(797) 评论(0) 推荐(0) 编辑
摘要:在pom中添加依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instan 阅读全文
posted @ 2022-05-27 14:57 CHANG_09 阅读(673) 评论(0) 推荐(0) 编辑
摘要:1)FileChannel和MemoryChannel区别 MemoryChannel传输数据速度更快,但因为数据保存在JVM的堆内存中,Agent进程挂掉会导致数据丢失,适用于对数据质量要求不高的需求。 FileChannel传输速度相对于Memory慢,但数据安全保障高,Agent进程挂掉也可以 阅读全文
posted @ 2022-05-25 22:56 CHANG_09 阅读(78) 评论(0) 推荐(0) 编辑
摘要:1)问题描述:如果启动消费Flume抛出如下异常 ERROR hdfs.HDFSEventSink: process failed java.lang.OutOfMemoryError: GC overhead limit exceeded 2)解决方案步骤: (1)在hadoop102服务器的/o 阅读全文
posted @ 2022-05-25 22:54 CHANG_09 阅读(344) 评论(0) 推荐(0) 编辑
摘要:- /*-- 1653219286244|{"cm":{"ln":"-39.0","sv":"V2.4.3","os":"8.1.3","g":"QK98H42I@gmai"mid":"998","nw":"WIFI","l":"es","vc":"13"," 阅读全文
posted @ 2022-05-25 21:16 CHANG_09 阅读(75) 评论(0) 推荐(0) 编辑
摘要:hadoop3.x HDFS NameNode 内部通常端口:8020、9000、9820 HDFS NameNode 对用户的查询端口:9870 Yarn查看任务运行情况的端口:8088 历史服务器:19888 阅读全文
posted @ 2022-05-25 18:42 CHANG_09 阅读(1024) 评论(0) 推荐(0) 编辑
摘要:使用 date -s 修改系统的当前时间 # date -s 20:20:30 # date -s 2018-5-5 安装ntp # yum install ntp 同步 ntp.api.bz NTP服务器(上海) 时间, 写入bios 防止重启失效。 # ntpdate npt.api.bz# h 阅读全文
posted @ 2022-05-25 18:31 CHANG_09 阅读(248) 评论(0) 推荐(0) 编辑
摘要:环境准备maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像)gcc-c++zlib-develautoconfautomakelibtoolmaven通过yum安装即可 yum -y install gcc-c++ lzo-devel zlib-devel autoconf 阅读全文
posted @ 2022-05-24 21:47 CHANG_09 阅读(152) 评论(0) 推荐(0) 编辑
摘要:备份原来的源 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup 下载阿里的yum源 curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirror 阅读全文
posted @ 2022-05-24 20:16 CHANG_09 阅读(2781) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-05-24 20:08 CHANG_09 阅读(27) 评论(0) 推荐(0) 编辑
摘要:删快照 拍 快照 df -h fdisk -l fdisk /dev/sda partprobe /dev/sda 通知系统内核分区表的变化 resize2fs /dev/sda3 重新调整文件系统大小 df -h 阅读全文
posted @ 2022-05-23 14:56 CHANG_09 阅读(4129) 评论(0) 推荐(0) 编辑
摘要:1、查看磁盘信息,标红的为新增的磁盘空间 lsblk fdisk -l 2、使用fdisk命令,创建新分区参考:https://blog.51cto.com/12185273/2048111root@localhost# fdisk /dev/sdb 执行= 对其进行分区n——新建分区p——新建主分 阅读全文
posted @ 2022-05-21 10:44 CHANG_09 阅读(83) 评论(0) 推荐(0) 编辑
摘要:修改完成后,进入DOS命令提示符,输入: set PATH=C: 关闭DOS窗口。再次打开DOS窗口,输入: echo %PATH% 阅读全文
posted @ 2022-05-09 15:50 CHANG_09 阅读(527) 评论(0) 推荐(0) 编辑
摘要:数据的字段不够用,为了满足数据开发的要求 阅读全文
posted @ 2022-05-09 08:56 CHANG_09 阅读(50) 评论(0) 推荐(0) 编辑
摘要:分层架构的好处: 1. 分层架构的目的是通过 关注点分离 来降低 系统的复杂度。分层后 数据逻辑清晰,便于数据的开发和维护。 2. 同时满足 单一职责、高内聚、低耦合 3. 提高可 复用性 和 降低维护成本。 单一职责:每一层只负责一个职责,职责边界清晰,如持久层只负责数据查询和存储,领域层只负责处 阅读全文
posted @ 2022-05-09 08:53 CHANG_09 阅读(820) 评论(0) 推荐(0) 编辑
摘要:Elasticsearch搭建集群步骤: (1). 解压文件到指定目录。 (2). 修改elasticsearch.yml配置文件: [root@hadoop102 elasticsearch]# vim /opt/module/elasticsearch/config/elasticsearch. 阅读全文
posted @ 2022-05-06 20:30 CHANG_09 阅读(78) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示