2023 年 12月随笔档案 - SpringCore

Spark 3.5.0 独立部署(Standalone)模式

摘要：1.下载Spark 3.5.0 https://spark.apache.org/downloads.html 2.安装JDK Linux 安装Openjdk 3.安装Hadoop Hadoop-3.3.6分布式集群搭建步骤 4.解压 mkdir /usr/spark tar -zxvf spark 阅读全文

posted @ 2023-12-31 18:21 SpringCore 阅读(240) 评论(0) 推荐(0) 编辑

Debian 安装 Mysql

摘要：参考地址：https://dev.mysql.com/doc/mysql-apt-repo-quick-guide/en/ 1.下载apt Repo https://dev.mysql.com/downloads/repo/apt/ 2.安装Mysql Apt Repo dpkg -i mysql- 阅读全文

posted @ 2023-12-24 20:10 SpringCore 阅读(357) 评论(0) 推荐(0) 编辑

Hive 3.1.3 生产安装

摘要：1.安装用于存储元数据的关系数据库生产环境中一般存储元数据采用独立的关系型数据库而非Hive本地的嵌入式数据库本地的嵌入式数据库无法支持多个请求同时访问。本示例采用Mysql8.0作为示例具体的支持列表参考官方文档： https://cwiki.apache.org/confluence/d 阅读全文

posted @ 2023-12-24 18:39 SpringCore 阅读(400) 评论(0) 推荐(0) 编辑

Hive 3.1.3最小化安装

摘要：1.解压 mkdir /usr/hive tar -zxvf apache-hive-3.1.3-bin.tar.gz -C /usr/hive 2.配置Hive环境变量在/etc/profile.d中配置 1.新建hive.sh vi /etc/profile.d/hive.sh export 阅读全文

posted @ 2023-12-24 16:15 SpringCore 阅读(67) 评论(0) 推荐(0) 编辑

Hadoop Yarn Tool接口接入

摘要：1.目标程序可以动态修改参数 2.实现项目搭建参考 Java实现对Hadoop HDFS的API操作 1.驱动类 package cn.coreqi.mapreduce.tool; import org.apache.hadoop.conf.Configuration; import org.a 阅读全文

posted @ 2023-12-17 21:35 SpringCore 阅读(30) 评论(0) 推荐(0) 编辑

Hadoop Yarn 调度器多队列

摘要：1.容量调度器多队列 1.为何需要多队列调度器默认就1个default队列，不能满足生产的要求。 1个队列在任务极限的情况下，容易资源耗尽。特殊时期通过对任务的区分可以保证重要的任务队列资源充足按照框架区分队列，如hive/spark/flink 每个框架的任务放入指定的队列(企业用的不是特别阅读全文

posted @ 2023-12-17 14:47 SpringCore 阅读(187) 评论(0) 推荐(0) 编辑

Hadoop YARN生产环境核心配置参数

摘要：1.ResourceManager相关配置参数说明默认值备注 yarn.resourcemanager.scheduler.class 配置调度器,默认为容量调度器(Apache) org.apache.hadoop.yarn.server.resourcemanager.scheduler 阅读全文

posted @ 2023-12-17 13:19 SpringCore 阅读(312) 评论(0) 推荐(0) 编辑

Hadoop YARN

摘要：1.Yarn资源调度器 Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 1.Yarn基础架构 Yarn主要由ResourceManager、NodeManager、Applicatio 阅读全文

posted @ 2023-12-16 21:02 SpringCore 阅读(26) 评论(0) 推荐(0) 编辑

Hadoop 数据压缩

摘要：1.概述 1.好处 & 坏处优点：减少磁盘IO、减少磁盘存储空间缺点：增加CPU开销 2.压缩的原则运算密集型的Job，少用压缩 IO密集型的Job，多用压缩 2.MR 支持的压缩编码 1.压缩算法对比介绍压缩格式 Hadoop自带? 算法文件扩展名是否可切片换成压缩格式后,原来的程序阅读全文

posted @ 2023-12-16 18:48 SpringCore 阅读(58) 评论(0) 推荐(0) 编辑

Hadoop MapReduce框架原理

摘要：1.InputFormat数据输入 1.数据切片与MapTask并行度决定机制一个Job的Map阶段并行度由客户端在提交Job时的切片数决定每一个Split切片分配一个MapTask并行实例处理默认情况下，切片大小 = BlockSize 切片时不考虑数据集整体，而是逐个针对每一个文件单独切片阅读全文

posted @ 2023-12-14 11:45 SpringCore 阅读(29) 评论(0) 推荐(0) 编辑

Hadoop 数据类型及序列化

摘要：1.Hadoop数据类型 Java类型 Hadoop Writable类型 Boolean BooleanWritable Byte ByteWritable Int IntWritable Float FloatWritable Long LongWritable Double DoubleWri 阅读全文

posted @ 2023-12-13 19:04 SpringCore 阅读(48) 评论(0) 推荐(0) 编辑

Hadoop MapReduce编程规范

摘要：用户编写的程序分为三个部分:Mapper、Reducer和Driver 1.Mapper阶段用户自定义的Mapper要继承自己的父类 Mapper的输入数据是KV对的形式（KV的类型可自定义） Mapper中的业务逻辑写在map()方法中 Mapper的输出数据是KV对的形式（KV的类型可自定义）阅读全文

posted @ 2023-12-13 10:26 SpringCore 阅读(23) 评论(0) 推荐(0) 编辑

Hadoop NameNode(SecondaryNameNode) Fsimage和Edits解析

摘要：NameNode被格式化之后，将在NameNode目录下产生一些文件 1.Fsimage文件 Fsimage文件是HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件inode的序列化信息查看Fsimage文件 hdfs oiv -p 文件类型 -i 镜像文件 -o 阅读全文

posted @ 2023-12-12 14:35 SpringCore 阅读(118) 评论(0) 推荐(0) 编辑

Hadoop 配置的优先级

摘要：从低到高 1.默认配置默认文件文件存放在Hadoop的jar包中的位置 core-default.xml hadoop-common-3.3.6.jar/core-default.xml hdfs-default.xml hadoop-hdfs-3.3.6.jar/hdfs-default.xm 阅读全文

posted @ 2023-12-11 13:11 SpringCore 阅读(85) 评论(0) 推荐(0) 编辑

Java实现对Hadoop HDFS的API操作

摘要：1.配置Hadoop的Windows客户端 Hadoop 配置Windows 客户端 2.新建Maven项目[略] 3.添加依赖  <dependen 阅读全文

posted @ 2023-12-10 16:10 SpringCore 阅读(202) 评论(0) 推荐(0) 编辑

Hadoop 配置Windows 客户端

摘要：1.根据Hadoop版本下载Windows依赖，并放置到非中文目录下 https://github.com/cdarlint/winutils 2.配置环境变量 HADOOP_HOME -> 放置的目录地址 PATH -> 追加%HADOOP_HOME%\bin 3.测试环境双击winutils. 阅读全文

posted @ 2023-12-10 15:07 SpringCore 阅读(167) 评论(0) 推荐(0) 编辑

Hadoop HDFS 文件块大小

摘要：HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来配置，默认大小在Hadoop2.x/3.x版本中是128M，1.x版本中是64M. 建议配置为物理机硬盘每秒的读取速度,如机械硬盘则建议为128M，SSD则配置为256M。 HDFS的块设置太小阅读全文

posted @ 2023-12-10 10:56 SpringCore 阅读(168) 评论(0) 推荐(0) 编辑

Linux 配置NTP时间同步服务

摘要：1.安装[可选，如已安装则跳过] apt install ntp 2.启动NTP服务 systemctl start ntpd systemctl enable ntpd 3.查看NTP服务运行状态 systemctl status ntpd 4.修改配置文件 vi /etc/ntpsec/ntp. 阅读全文

posted @ 2023-12-09 17:49 SpringCore 阅读(6200) 评论(0) 推荐(0) 编辑

Hadoop 常用配置文件

摘要：Hadoop2.x Hadoop3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves 阅读全文

posted @ 2023-12-09 16:47 SpringCore 阅读(19) 评论(0) 推荐(0) 编辑

Hadoop 常用端口号

摘要：端口名称 Hadoop2.x Hadoop3.x HDFS NameNode内部通信端口 8020 / 9000 8020 / 9000 / 9820 HDFS NameNode HTTP UI 50070 9870 YARN MapReduce查看执行任务端口 8088 8088 历史服务器通信端阅读全文

posted @ 2023-12-09 16:39 SpringCore 阅读(216) 评论(0) 推荐(0) 编辑

Hadoop 一些脚本总结

摘要：1.各个模板分开启动/停止 1.整体启动/停止 HDFS start-dfs.sh / stop-dfs.sh 2.整体启动/停止 YARN start-yarn.sh / stop-yarn.sh 2.各个服务组件逐一启动/停止 1.分别启动/停止 HDFS组件 hdfs --daemon sta 阅读全文

posted @ 2023-12-01 19:04 SpringCore 阅读(22) 评论(0) 推荐(0) 编辑

Hadoop 配置日志聚集

摘要：本文章的前置Hadoop-3.3.6分布式集群搭建步骤概念：集群中的每台Hadoop节点的运行都会产生日志，开启日志聚集后，将所有运行日志信息上传到Hadoop HDFS系统上，可以更好的查看运行详情，方便开发及调试。注意：需要重启NodeManage、ResourceManager和Hist 阅读全文

posted @ 2023-12-01 17:29 SpringCore 阅读(136) 评论(0) 推荐(0) 编辑

Coreqi

12 2023 档案

公告

搜索

常用链接

随笔分类 (735)

随笔档案 (661)

相册 (2)

阅读排行榜

评论排行榜

推荐排行榜

最新评论