摘要: ETL 1.ETL的重要性 ==> 存在的问题:每个MR作业都去全量读取待处理的原始日志,如果数据量很大,将非常不可取 ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程 为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。 阅读全文
posted @ 2024-06-23 12:30 Uitwaaien_wxy 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 项目要求 根据电商日志文件,分析: 1 . 统计页面浏览量(每行记录就是一次浏览) 2 . 统计各个省份的浏览量 (需要解析IP) 3 . 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程) 为什么要ETL:没有必要解析出所 阅读全文
posted @ 2024-06-23 12:22 Uitwaaien_wxy 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 浏览量统计功能实现 统计页面的浏览量 count 一行记录做成一个固定的KEY,value赋值为1 PVStatApp 点击查看代码 package com.imooc.bigdata.hadoop.mr.project.mr; import org.apache.hadoop.conf.Confi 阅读全文
posted @ 2024-06-23 12:10 Uitwaaien_wxy 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 项目概述: 需求:统计每个手机号上行流量和、下行流量和、总的流量和(上行流量和+下行流量和), 将统计结果按照手机号的前缀进行区分,并输出到不同的输出文件中去 13* ==> .. 15* ==>.. other ==>.. 提供数据文件如下: access.log 第二个字段:手机号 倒数第三字段 阅读全文
posted @ 2024-06-22 23:21 Uitwaaien_wxy 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 分布式资源管理框架YARN YARN基本使用 Yarn是一个资源管理框架,所以它可以对提交到集群中的任务进行查看,并可以强制结束这些任务。 它常用的Shell命令有: yarn application [command_options] 一般使用流程,是先用list查看集群中未完成的所有任务以及它的 阅读全文
posted @ 2024-06-22 22:20 Uitwaaien_wxy 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 环境初始化 首先完成Java开发环境准备,创建工程并导入开发所需的Jar包。之后在准备好的工程中完成以下步骤。 在VSCode(或其他IDE)中新建一个Maven工程,并在pom.xml中添加Hadoop依赖。 <dependency> <groupId>org.apache.hadoop</gro 阅读全文
posted @ 2024-06-22 20:19 Uitwaaien_wxy 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 大数据技术概述 大数据简介 大数据技术是一组用于处理、存储和分析大规模数据集的技术和工具。随着数字化时代的到来,数据量的爆炸性增长使得传统的数据处理和分析方法变得不够高效,因此大数据技术应运而生。 大数据技术的主要特点包括: 处理海量数据、并行处理、 实时处理、多样化数据源、可伸缩性; 大数据技术提 阅读全文
posted @ 2024-06-22 19:59 Uitwaaien_wxy 阅读(18) 评论(0) 推荐(0) 编辑