spark core案例二:清洗过滤

  • 题目描述
/**
* 用户的行为日志数据清洗过滤
* 网站的独立访客数:一个唯一的IP地址就是一个独立访客
* 1、将用户行为日志数据中的IP地址字段获取到返回一个只包含IP地址的RDD
* 2、RDD中重复的IP去重
* 3、RDD中的累加值
*/
  • 案例
object A2DataAnaly {
def main(args: Array[String]): Unit = {
val sparkConf:SparkConf = new SparkConf().setAppName("demo02").setMaster("local[3]")
val sc:SparkContext = new SparkContext(sparkConf)
val value: RDD[String] = sc.textFile("hdfs://node1:9000/dc")
val ip = value.map((line: String) => {
val str = line.split(" ")
(str(0), 1)
})
val ipAll: RDD[(String, Int)] = ip.distinct()
println(ipAll.count())
sc.stop()
}
}
posted @   jsqup  阅读(43)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
点击右上角即可分享
微信分享提示