java mapreduce实现网站PV分析
原文链接:
https://www.toutiao.com/i6765677128022229517/
PV 是Page Views的缩写,即页面浏览量,用户每一次对网站中的每个网页访问均被记录一次。注意,访客每刷新一次页面,pv就增加一次。
我们目前的数据是:
其中的数据我们会得到标注
根据标注我们进行代码筛选,编写MapReduce
分析:我们先根据标注的表中有一个"省份"的字段,依据"省份"编写map。
首先我们创建Maven项目
填写pom信息
创建Map类
基本结构如下:
我们需要对原数据进行筛选
长度筛选
省份编号是空值
确保数字编号是否是数字
筛选URL是否为空值
创建Reduce类
编写内容
创建运行类
编写程序内容
准备数据源文件和Jar包
启动Hadoop
我们将数据上传到HDFS中
我们查看下数据,发现数据已经上传了
我们执行我们的jar包
yarn jar /data/webpv/webpv.jar com.xlglvc.xxx.mapredece.webpv.WebPvDriver /webpv/data1 /webpvoutput
执行成功
我们查看生成的数据,已经生成了,我们查看下最终数据
这样我们就知道每个省份最终访问的次数了,了解到那个省份访问的最多了
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构