Spark之从hdfs读取数据
var hv=sc.textFile("hdfs://192.168.15.30:8020/user/hive/warehouse/ycapp.db/appindex") var hivedata=hv.map(_.split("\t")).map(e => ( e(1), e(2),e(0).toInt)) (String, String, String) = (9,2017-07-26,all_posts) -- 访问第一行的第一列元素 hivedata.first()._1 -- 把三列数据中的第一列筛选出来 var hivedata1=hivedata.map(res=>res._1) -- 第一列数据的排重数量 hivedata1.distinct().count() -- 把第一列数据转化成键值对 var hivedata1_map= hivedata1.map(res=>(res,1)) -- 统计第一列数据的频数 var hivedata1_mapv=hivedata1_map.reduceByKey((x,y)=>x+y) -- 取出数据中的第一列和第三列 var hivedata2=hivedata.map(res=>(res._1,res._3)) -- 统计第三列数据在第一列分组中的求和 ar hivedata2_mv =hivedata2.reduceByKey((x,y)=>x+y) -- 统计多个key的groupby操作 var hivedata3=hivedata.map(res=>(res._1+res._2,res._3)) var hivedata3_mv=hivedata3.reduceByKey((x,y)=>x+y) var hivedata3_mv2=hivedata3_mv.map(res=>(res._1.substring(0,10),res._1.substring(10),res._2))
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南