上一页 1 2 3 4 5 6 ··· 24 下一页
摘要: 3 阅读全文
posted @ 2024-09-18 22:34 赵千万 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 8. 使用 Hive 进行大数据查询 概述 Hive 是构建在 Hadoop 之上的数据仓库工具,用于处理大数据查询分析。本文将介绍如何使用 Hive 进行基本的 SQL 查询操作。 内容 Hive 的基本概念和架构 创建 Hive 表 加载数据到 Hive 表 执行 SQL 查询 代码示例 -- 阅读全文
posted @ 2024-09-16 21:25 赵千万 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 7. HBase 基本操作 概述 HBase 是一个分布式、面向列的 NoSQL 数据库,适用于存储非结构化或半结构化数据。本文将介绍如何使用 HBase Shell 进行基本操作。 内容 HBase 数据模型 使用 HBase Shell 进行增删改查操作 HBase 表设计注意事项 代码示例 # 阅读全文
posted @ 2024-09-15 18:31 赵千万 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 6. 使用 Spark Streaming 实时处理数据 概述 Spark Streaming 是 Spark 生态系统中的流式数据处理组件。本文将介绍如何使用 Spark Streaming 实现实时数据处理。 内容 Spark Streaming 的基本概念 从 Socket 数据源读取数据 实 阅读全文
posted @ 2024-09-14 21:40 赵千万 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 5. Spark SQL 与 DataFrame 基本操作 概述 Spark SQL 允许我们使用 SQL 查询操作处理大数据。本文将介绍如何使用 Spark SQL 和 DataFrame 进行基本的数据查询和分析操作。 内容 Spark SQL 和 DataFrame 概述 创建 DataFra 阅读全文
posted @ 2024-09-13 16:21 赵千万 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 4. Spark 基础:RDD 操作 概述 Spark 是一个快速大数据处理框架,具有强大的内存计算能力。本文将介绍 Spark RDD 的基本操作,包括创建、转换和行动操作。 内容 RDD 概念 创建 RDD:从集合或外部数据源 RDD 转换操作:map、filter RDD 行动操作:colle 阅读全文
posted @ 2024-09-12 18:40 赵千万 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 3. 使用 MapReduce 实现词频统计 概述 MapReduce 是 Hadoop 用于处理大规模数据的核心编程模型。本文将通过 MapReduce 代码实现简单的词频统计任务。 内容 MapReduce 工作原理:Mapper 和 Reducer Hadoop 项目结构 MapReduce 阅读全文
posted @ 2024-09-11 19:51 赵千万 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 2. HDFS 基础操作 概述 Hadoop 分布式文件系统(HDFS)是 Hadoop 的核心组件之一。本文将介绍 HDFS 的基本操作,如文件上传、下载和删除。 内容 HDFS 的架构介绍 HDFS 文件操作命令 常用 HDFS Shell 命令 代码示例 # 上传文件到 HDFS hdfs d 阅读全文
posted @ 2024-09-10 20:27 赵千万 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 1. Hadoop 集群搭建与配置 概述 Hadoop 是大数据处理框架,适用于分布式存储和处理大规模数据。本文将介绍如何搭建一个简单的 Hadoop 集群,包含基本的配置步骤和注意事项。 内容 Hadoop 架构概述:HDFS、YARN、MapReduce 环境要求:Java、SSH、Linux 阅读全文
posted @ 2024-09-09 17:31 赵千万 阅读(13) 评论(0) 推荐(0) 编辑
摘要: HBase性能优化与预分区学习:8小时 Java Web项目安全性增强:8小时 Hadoop集群管理:6小时 本周完成的内容:本周我集中研究了HBase的性能优化问题,特别是如何通过预分区技术来提高HBase在大数据场景下的查询性能。HBase中的数据按行键存储,因此如果行键设计不合理,容易导致数据 阅读全文
posted @ 2024-09-03 20:27 赵千万 阅读(5) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 24 下一页