Spark之权威指南经典案例

hadoop权威指南上有一个求历史最高温度的经典案例,源数据如下:

-- sample.txt
0067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+00001+99999999999
0043011990999991950051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+00221+99999999999
0043011990999991950051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9-00111+99999999999
0043012650999991949032412004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+01111+99999999999
0043012650999991949032418004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+00781+99999999999

复制代码
--通过spark来求天气的最大值比写MapReduce不知道简单了多少倍
var lines=sc.textFile("/root/wangbin/sample.txt")
-- 定义函数,正数不取符号,负数取符号
var data=lines.map(line=>{
if(line.charAt(87)=='+')
{(line.substring(15,19),line.substring(88,92))}
else
{(line.substring(15,19),line.substring(87,92))}
})
-- 把第二列数据转为浮点型
var data2=data.map(res=>(res._1,res._2.toDouble))
-- 取相对key分组的最大value值
var data3=data2.reduceByKey((x,y)=>Math.max(x,y))
复制代码

 

posted @   Mars.wang  阅读(390)  评论(0编辑  收藏  举报
编辑推荐:
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
点击右上角即可分享
微信分享提示