随笔分类 -  大数据

摘要:一、Exchangis AppConn 部署 参考文档: https://github.com/WeBankFinTech/Exchangis/blob/master/docs/zh_CN/ch1/exchangis_appconn_deploy_cn.md https://github.com/W 阅读全文
posted @ 2023-04-25 09:22 百衲本 阅读(667) 评论(2) 推荐(0) 编辑
摘要:一、环境要求 参考文档:DataSphere Studio & Linkis 单机一键部署文档 相关软件包:百度网盘 1.系统要求 CentOS为6或者7 2.安装依赖命令 命令依赖: telnet; tar; sed; dos2unix; mysql; yum; java; unzip; zip; 阅读全文
posted @ 2023-04-07 15:07 百衲本 阅读(1138) 评论(0) 推荐(0) 编辑
摘要:一、部署环境及Hbase各组件简介 Hbase组件简介 1.Client Client包含了访问Hbase的接口,另外Client还维护了对应的cache来加速Hbase的访问,比如cache的.META.元数据的信息。 2.Zookeeper HBase通过Zookeeper来做master的高可 阅读全文
posted @ 2023-03-28 10:05 百衲本 阅读(94) 评论(0) 推荐(0) 编辑
摘要:一、角色分配及安装环境准备 资料下载地址: 链接: 百度网盘 1.机器及机器角色规划 2.关闭防火墙及SELinux 3.安装依赖(server) yum install -y cyrus-sasl-plain cyrus-sasl-gssapi portmap fuse-libs bind-uti 阅读全文
posted @ 2023-03-20 15:23 百衲本 阅读(211) 评论(0) 推荐(0) 编辑
摘要:一、HDFS Trash垃圾桶 1.文件系统垃圾桶背景 HDFS本身也是一个文件系统,那么就会涉及到文件数据的删除操作。 默认情况下,HDFS中是没有回收站垃圾桶概念的,删除操作的数据将会被直接删除,没有后悔药。 2.功能概述 1.HDFS Trash机制,叫做回收站或者垃圾桶。Trash就像Win 阅读全文
posted @ 2023-03-01 16:27 百衲本 阅读(480) 评论(0) 推荐(0) 编辑
摘要:1.背景 HDFS并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在NameNode占用内存,如果存在大量的小文件,它们会吃掉NameNode节点的大量内存。如下所示,模拟小文件场景: 2.Archive概述 Hadoop Archives可以有效的处理以上问题,它可以 阅读全文
posted @ 2023-03-01 13:53 百衲本 阅读(84) 评论(0) 推荐(0) 编辑
摘要:一、什么是元数据 在HDFS中,元数据主要指的是文件相关的元数据,由NameNode管理维护。从广义的角度来说,因为NameNode还需要管理众多DataNode节点,因此DataNode的位置和健康状态信息也属于元数据。 二、元数据管理概述 1.文件相关元数据类型 在HDFS中,文件相关元数据具有 阅读全文
posted @ 2023-03-01 11:54 百衲本 阅读(660) 评论(0) 推荐(0) 编辑
摘要:一、HDFS HA简介 1.1 QJM简介 1.Quorum Journal Manager(仲裁日志管理器),是Hadoop官方推荐的HDFS HA解决方案之一 2.使用zookeeper中ZKFC来实现主备切换; 3.使用Journal Node(JN)集群实现edits log的共享以达到数据 阅读全文
posted @ 2023-02-27 11:51 百衲本 阅读(470) 评论(0) 推荐(0) 编辑
摘要:一、分布式文件存储面临的挑战 1.海量数据存储问题 采用多台服务器,支持横向扩展 2.海量数据问题查询便捷问题 使用元数据记录文件和机器的位置信息 3.大文件传输效率慢问题 分块存储,分别存储在多台机器上,并行操作提高效率 4.数据丢失问题 冗余存储,多副本机制 5.解决用户查询视角统一规整问题 可 阅读全文
posted @ 2023-02-17 16:18 百衲本 阅读(314) 评论(0) 推荐(0) 编辑
摘要:一、节点上线 1.新机器安装环境准备 参考集群安装文档环境准备 2.namenode节点配置 [root@hdp01 hadoop]# cat workers hdp01.dialev.com hdp02.dialev.com hdp03.dialev.com hdp04.dialev.com [r 阅读全文
posted @ 2023-02-17 15:59 百衲本 阅读(64) 评论(0) 推荐(0) 编辑
摘要:一、短路本地读取(Short Circuit Local Reads) 1.1 背景 在HDFS中,不管是Local Reads ( DFSClient和Datanode在同一个节点)还是Remote Reads ( DFSClient和Datanode不在同一个节点), 底层处理方式都是一样的,都 阅读全文
posted @ 2023-02-17 15:49 百衲本 阅读(381) 评论(0) 推荐(0) 编辑
摘要:一、安全模式现象探究 1.1 关闭所有服务,使用命令单独启动服务 使用hdfs --daemon命令逐个进程启动集群,观察现象 1.首先启动namenode stop-all.sh jps hdfs --daemon start namenode jps hadoop fs -ls / #使用ls浏 阅读全文
posted @ 2023-02-17 15:11 百衲本 阅读(379) 评论(0) 推荐(0) 编辑
摘要:一、数据迁移使用场景 1.冷热集群数据同步、分类存储 2.整体数据整体搬迁 3.数据准实时同步(备份) 二、考量因素 1.网络传输带宽及时间,是否会影响现有业务 2.性能,单机?多线程?分布式? 3.是否正常增量同步 4.数据迁移的同步性(同步单位时间数据超过单位时间) 三、DistCp工具使用 3 阅读全文
posted @ 2023-02-17 15:03 百衲本 阅读(1151) 评论(0) 推荐(0) 编辑
摘要:一、Hadoop 简介 1.1 Hadoop3核心组件 HDFS:分布式文件系统:解决海量数据存储 YARN:集群资源管理和任务调度框架:解决资源任务调度 MapReduce:分布式计算框架:解决海量数据计算 1.2 Hadoop集群简介 Hadoop集群包括两个集群:HDFS YARN 两个集群 阅读全文
posted @ 2023-02-17 14:52 百衲本 阅读(47) 评论(0) 推荐(0) 编辑
摘要:一、安装编译相关依赖 此篇文档及Hadoop相关文档相关软件包统一在此百度网盘: 链接:https://pan.baidu.com/s/11F4THdIfgrULMn2gNcObRA?pwd=cjll yum install snappy snappy-devel bzip2 bzip2-devel 阅读全文
posted @ 2023-02-17 14:26 百衲本 阅读(73) 评论(0) 推荐(0) 编辑
摘要:一、前言 服务器:建议第一台内存不少于16G,其他可以8G 软件版本: 资源链接: 链接:https://pan.baidu.com/s/17GWF0opxYl0MIm2LJNUGRg?pwd=iq4l 提取码:iq4l 二、部署前环境准备 以下操作在所有机器上执行 1.配置host解析 vim / 阅读全文
posted @ 2022-12-22 16:57 百衲本 阅读(494) 评论(0) 推荐(0) 编辑
摘要:一、什么是Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS 阅读全文
posted @ 2018-03-28 22:02 百衲本 阅读(3189) 评论(0) 推荐(0) 编辑
摘要:一、 Hadoop的分布式模型 Hadoop通常有三种运行模式:本地(独立)模式、伪分布式(Pseudo-distributed)模式和完全分布式(Fully distributed)模式。安装完成后,Hadoop的默认配置即为本地模式,此时Hadoop使用本地文件系统而非分布式文件系统,而且其也不 阅读全文
posted @ 2018-03-28 21:51 百衲本 阅读(3342) 评论(0) 推荐(0) 编辑

cnblogs_post_body { color: black; font: 0.875em/1.5em "微软雅黑" , "PTSans" , "Arial" ,sans-serif; font-size: 15px; } cnblogs_post_body h1 { text-align:center; background: #333366; border-radius: 6px 6px 6px 6px; box-shadow: 0 0 0 1px #5F5A4B, 1px 1px 6px 1px rgba(10, 10, 0, 0.5); color: #FFFFFF; font-family: "微软雅黑" , "宋体" , "黑体" ,Arial; font-size: 23px; font-weight: bold; height: 25px; line-height: 25px; margin: 18px 0 !important; padding: 8px 0 5px 5px; text-shadow: 2px 2px 3px #222222; } cnblogs_post_body h2 { text-align:center; background: #006699; border-radius: 6px 6px 6px 6px; box-shadow: 0 0 0 1px #5F5A4B, 1px 1px 6px 1px rgba(10, 10, 0, 0.5); color: #FFFFFF; font-family: "微软雅黑" , "宋体" , "黑体" ,Arial; font-size: 20px; font-weight: bold; height: 25px; line-height: 25px; margin: 18px 0 !important; padding: 8px 0 5px 5px; text-shadow: 2px 2px 3px #222222; } cnblogs_post_body h3 { background: #2B6695; border-radius: 6px 6px 6px 6px; box-shadow: 0 0 0 1px #5F5A4B, 1px 1px 6px 1px rgba(10, 10, 0, 0.5); color: #FFFFFF; font-family: "微软雅黑" , "宋体" , "黑体" ,Arial; font-size: 18px; font-weight: bold; height: 25px; line-height: 25px; margin: 18px 0 !important; padding: 8px 0 5px 5px; text-shadow: 2px 2px 3px #222222; } 回到顶部 博客侧边栏 回到顶部 页首代码 回到顶部 页脚代码
点击右上角即可分享
微信分享提示