spark练习题

复制代码

site1,user1,2016-11-20 02:12:22
site1,user2,2016-11-28 04:12:22
site1,user3,2016-11-20 11:12:22
site1,user3,2016-11-23 11:12:22
site2,user4,2016-11-20 15:12:22
site3,user5,2016-11-29 08:12:22
site3,user6,2016-11-22 08:12:22
site4,user7,2016-11-20 10:12:22
site4,user7,2016-11-24 11:12:22

复制代码

现在要对最近7天的日志进行统计,统计结果格式如下,key(date(日期),hour(时间),site(网站))
value:(pv (访问次数),uv(独立访问人数,相同的访客id去重))
统计结果需要存至Hbase,使用spark写出伪代码

复制代码

object tst {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("test").setMaster("local[3]")
    val sc = new SparkContext(conf);
    val curentDay = "2016-11-20"
    val format = "yyyy-MM-dd"
    val sdf = new SimpleDateFormat(format)
    val rdd =  sc.textFile("D:\\test\\spark\\笔试题\\siteuser.txt").map(t=>{
      val fileds = t.split(",")
      val date = fileds(2).split(" ")(0);
      val hour = fileds(2).split(" ")(1).substring(0,2);
      //site1,user1,2016-11-20 02
      (fileds(0),fileds(1),date,hour)
    }).filter(t=>{
      TimeUtils.intervalDays(curentDay,t._3,sdf,sdf) < 7
    }).cache()//如果不cache,在计算uvrdd时会重复计算之前的操作
    val pvrdd = rdd.groupBy(t=>(t._3,t._4,t._1)).map(t=>(t._1,t._2.size))
    println(pvrdd.collect().toBuffer)
    val uvrdd = rdd.groupBy(t=>t).map(t=>((t._1._3,t._1._4,t._1._1),t._2.size)).reduceByKey(_+_);
    print(uvrdd.collect().toBuffer)

    sc.stop()
  }
}

复制代码

posted @ 2017-09-07 12:47 牵牛花阅读(1240) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！
· 周边上新：园子的第一款马克杯温暖上架

公告

昵称：牵牛花
园龄： 9年10个月
粉丝： 19
关注： 4

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:spark练习题
TimeUtils呢
--Eanchao
2. Re:Scala:fold,foldLeft和foldRight区别与联系 reduce
这个列子三个结果相同,还是看不出来三者的本质区别啊
--jackyin5918
3. Re:sparkonhbase
org.apache.hadoop.hbase.spark.HBaseContext是哪个jar 包里的类？
--倪平凡
4. Re:sparkonhbase
org.apache.hadoop.hbase.spark.HBaseContext是哪个jar 包里的类？
--倪平凡
5. Re:The constructor ClassPathXmlApplicationContext(String) refers to the missing type BeansException
@ 啷个哩个啷s 虽然这件事已经过去一年了，我需要做个补充。楼主说的不错，是缺了一个包，我这边是没有引入Spring-core-.jar这个包，而且我的教程上面，没提示说要引入这个包。这个解决方法是在...
--乌拉拉S