08 2023 档案
摘要:本周学习数据仓库以及hive 数仓概念 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。 数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support)。 数仓专注分析 数据仓库本身并不“生产”任何数
阅读全文
摘要:这周复习hadoop相关内容 配置 安装包、源码包下载地址 https://archive.apache.org/dist/hadoop/common/hadoop-3.3.0/ 为什么要重新编译Hadoop源码? 匹配不同操作系统本地库环境,Hadoop某些操作比如压缩、IO需要调用系统本地库(*
阅读全文
摘要:鉴于大数据学习需要linux基础,但之前一直没注意这方面,linux直接上网先查,导致效率低下,所以本周学习linux操作 Linux文件系统概念 操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称文件系统; 文件系统的结构通常叫做目录树结构,从斜杠/根目录开始; Linux号称“万物
阅读全文
摘要:格律诗乐器的生产流程可以分为以下几个主要步骤,包括设计规划、原材料准备、零部件加工、组装调试和最终调整。下面我将详细介绍每个步骤。 第一步:设计规划在开始制作格律诗乐器之前,制造商需要进行设计规划。这一步骤包括确定乐器的类型、尺寸、形状和特征等。设计师会根据乐器的用途和音乐风格,绘制出详细的设计图纸
阅读全文
摘要:这周学习mapreduce相关知识 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 MapReduce易于
阅读全文