打赏

随笔分类 -  大数据

摘要:写流程: 读流程: 阅读全文
posted @ 2023-03-02 09:37 不像话 阅读(13) 评论(0) 推荐(0) 编辑
摘要:Hive 数据仓库 Hive的本质其实就相当于HDFS中已经存储的文件在MySql中做了一个双射关系,以方便使用HQL去管理查询。 用于数据分析、清洗 Hive适用于离线的数据分析和清洗,延迟较高。 基于HDFS、MapReduce Hive存储的数据依旧在DataNode上,编写的HQL语句终将是 阅读全文
posted @ 2022-03-03 17:16 不像话 阅读(93) 评论(0) 推荐(0) 编辑
摘要:使用HBase自带的命令参数查看HFile: ${HBASE_HOME}/bin/hbase org.apache.hadoop.hbase.io.hfile.HFile usage: HFile [-a] [-b] [-e] [-f <arg>] [-k] [-m] [-p] [-r <arg>] 阅读全文
posted @ 2022-03-03 15:20 不像话 阅读(163) 评论(0) 推荐(0) 编辑
摘要:什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层 阅读全文
posted @ 2022-02-25 10:18 不像话 阅读(59) 评论(0) 推荐(0) 编辑
摘要:Hadoop2.x新特性 集群间数据拷贝 采用distcp命令实现两个Hadoop集群之间的递归数据复制 小文件存档 回收站 Hadoop3.x新特性 多NN的HA架构:多个NameNode高可用 纠删码:能够在不到50%的数据冗余情况下提供和3副本相同的容错能力。 阅读全文
posted @ 2022-02-16 21:29 不像话 阅读(40) 评论(0) 推荐(0) 编辑
摘要:MapReduce程序效率的瓶颈在于两点: 1.计算机性能 CPU、内存、磁盘健康、网络。 2.I/O操作优化 ①数据倾斜 ②Map和Reduce数设置不合理 ③Map允许时间太长,导致Reduce等待太久 ④小文件过多 ⑤大量的不可切片的超大压缩文件 ⑥Spill次数过多 ⑦Merge次数过多 从 阅读全文
posted @ 2022-02-16 21:16 不像话 阅读(592) 评论(0) 推荐(0) 编辑
摘要:上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下: (1)MapTask收集map()方法输出的kv对,放到内存缓冲区中 (2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件 (3)多个溢出文件会被合并成大的 阅读全文
posted @ 2022-02-09 21:14 不像话 阅读(470) 评论(0) 推荐(0) 编辑
摘要:1)DataNode可以配置成多个目录,每个目录存储的数据不一样。即:数据不是副本 2)具体配置如下 (1)在hdfs-site.xml文件中添加如下内容 <property> <name>dfs.datanode.data.dir</name> <value>file://${hadoop.tmp 阅读全文
posted @ 2022-02-08 21:34 不像话 阅读(397) 评论(0) 推荐(0) 编辑
摘要:当需要在原有集群基础上动态添加新的数据节点时,需要进行如下操作: 环境准备 (1)在hadoop主机上再克隆一台hadoop1主机(可以直接安装一个) (2)修改IP地址和主机名称 (3)删除原来HDFS文件系统留存的文件(/opt/module/hadoop-3.1.3/data和logs)(可以 阅读全文
posted @ 2022-02-08 21:31 不像话 阅读(214) 评论(0) 推荐(0) 编辑
摘要:(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 (2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 (3)心跳是每3秒一次,心跳返回结 阅读全文
posted @ 2022-02-08 20:58 不像话 阅读(55) 评论(0) 推荐(0) 编辑
摘要:HDFS处于安全模式的情况: NameNode启动 NameNode启动时,首先将镜像文件(Fsimage)载入内存,并执行编辑日志(Edits)中的各项操作。一旦在内存中成功建立文件系统元数据的镜像,则创建一个空的编辑日志。此时,NameNode开始监听DataNode请求。这个过程期间,Name 阅读全文
posted @ 2022-02-08 20:55 不像话 阅读(83) 评论(0) 推荐(0) 编辑
摘要:NameNode故障后,可以采用如下两种方法恢复数据。 1)将SecondaryNameNode中数据拷贝到NameNode存储数据的目录: (1)kill -9 NameNode进程 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.3/data/tmp/dfs/ 阅读全文
posted @ 2022-02-08 20:41 不像话 阅读(154) 评论(0) 推荐(0) 编辑
摘要:NN和2NN工作机制推演 首先要知道NameNode中的元数据是存储在哪里的? 倘若存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据 阅读全文
posted @ 2022-02-08 20:27 不像话 阅读(170) 评论(0) 推荐(0) 编辑
摘要:HDFS读文件 (1)客户端通过DistributedFileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。 (2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。 (3)DataNode开始传输数据给客户端(从 阅读全文
posted @ 2022-02-08 19:54 不像话 阅读(80) 评论(0) 推荐(0) 编辑
摘要:一般情况下,使用虚拟机安装Linux系统,使用Centos7镜像。 安装完成后很多命令使用不了,需要安装插件。一般情况下,只需要在连网状态下输入两条命令安装一下插件即可。 yum install -y epel-release yum install -y psmisc nc net-tools r 阅读全文
posted @ 2022-02-07 19:53 不像话 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-02-06 20:24 不像话 阅读(23) 评论(0) 推荐(0) 编辑
摘要:前言 数据科学部为想从事大数据方向学习的小伙伴总结了一下大数据的学习路线,供大家学习参考。由于大数据是一个基础门槛较高就业前景较好的学习方向。所以打算学习大数据的小伙伴要加油啦! 大数据学习路线: 首先我要了解大数据处理流程: 第一步:数据收集 第二部:数据存储 第三步:数据分析 第四步:数据应用 数据收集 大数据处理的第一步是数据的收集。现在的中大型项目通常采用微服务架构进行分布式部署,... 阅读全文
posted @ 2020-05-19 12:43 不像话 阅读(4448) 评论(3) 推荐(4) 编辑
摘要:大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据学习路线: 首先我要了解大数据处理流程: 第一步:数据收集 第二部:数据存储 第三 阅读全文
posted @ 2020-03-25 19:24 不像话 阅读(317) 评论(0) 推荐(0) 编辑
摘要:准备工作: hadoop3.2.0+jdk1.8+centos7+zookeeper3.4.5 以上是我搭建集群使用的基础包 一、环境准备 master1 master2 slave1 slave2 slave3 jdk、NameNode、DFSZKFailoverController(zkfc) 阅读全文
posted @ 2019-12-11 19:37 不像话 阅读(1179) 评论(0) 推荐(0) 编辑
摘要:一、环境准备 ①准备三台虚拟机,配置静态IP ②先修改主机名(每个节点统一命名规范) vim /etc/hostname master #重启生效 配置DNS每个节点 vim /etc/hosts 192.168.60.121 master192.168.60.122 salve1 192.168. 阅读全文
posted @ 2019-12-03 17:44 不像话 阅读(827) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示