Spark详解(05-1) - SparkCore实战案例

Spark详解(05-1) - SparkCore实战案例

数据准备

1)数据格式

本项目的数据是采集电商网站的用户行为数据,主要包含用户的4种行为:搜索、点击、下单和支付。

1)数据采用_分割字段

2)每一行表示用户的一个行为,所以每一行只能是四种行为中的一种。

3)如果点击的品类id和产品id-1表示这次不是点击

4)针对下单行为,一次可以下单多个产品,所以品类id和产品id都是多个,id之间使用逗号分割。

如果本次不是下单行为,则他们相关数据用null来表示。

5)支付行为和下单行为格式类似

2)数据详细字段说明

编号

字段名称

字段类型

字段含义

1

date

String

用户点击行为的日期

2

user_id

Long

用户的ID

3

session_id

String

SessionID

4

page_id

Long

某个页面的ID

5

action_time

String

动作的时间点

6

search_keyword

String

用户搜索的关键词

7

click_category_id

Long

点击某一个商品品类ID

8

click_product_id

Long

某一个商品的ID

9

order_category_ids

String

一次订单中所有品类ID集合

10

order_product_ids

String

次订单中所有商品的ID集合

11

pay_category_ids

String

一次支付中所有品类ID集合

12

pay_product_ids

String

次支付中所有商品的ID集合

13

city_id

Long

城市 id

需求1Top10热门品类

需求说明:品类是指产品的分类,大型电商网站品类分多级,本项目中品类只有一级,不同的公司可能对热门的定义不一样。按照每个品类的点击、下单、支付的量来统计热门品类。

            点击数 下单数 支付数

衣服        点击数 下单数 支付数

电脑        点击数 下单数 支付数

例如,综合排名 = 点击数*20% + 下单数*30% + 支付数*50%

本项目需求优化为:先按照点击数排名,靠前的就排名高;如果点击数相同,再比较下单数;下单数再相同,就比较支付数。

需求分析(方案一)分步计算

思路:分别统计每个品类点击的次数,下单的次数和支付的次数。

(品类,点击总数)(品类,下单总数)(品类,支付总数)

缺点:统计3次,需要启动3job,每个job都有对原始数据遍历一次,效率低。

需求分析(方案二)常规算子

采用常规算子的方式实现。

需求分析(方案三)样例类

采用样例类的方式实现。

需求实现(方案三)

1)用来封装用户行为的样例类

注意:样例类的属性默认是val修饰,不能修改;需要修改属性,需要采用var修饰。

2)核心业务代码实现

需求分析(方案四)样例类+算子优化

针对方案三中的groupBy,没有提前聚合的功能,替换成reduceByKey

需求实现(方案四)

1)样例类代码和方案三一样。(详见方案三)

2)核心代码实现

需求分析(方案五)累加器

需求实现(方案五)

1)累加器实现

2)核心逻辑实现

需求2Top10热门品类中每个品类的Top10活跃Session统计

需求分析

需求实现

1)累加器实现

2)核心逻辑实现

需求3:页面单跳转化率统计

需求分析

1)页面单跳转化率

计算页面单跳转化率,什么是页面单跳转换率,比如一个用户在一次 Session 过程中访问的页面路径 3,5,7,9,10,21,那么页面 3 跳到页面 5 叫一次单跳,7-9 也叫一次单跳,那么单跳转化率就是要统计页面点击的概率。

比如:计算 3-5 的单跳转化率,先获取符合条件的 Session 对于页面 3 的访问次数(PV)为 A,然后获取符合条件的 Session 中访问了页面 3 又紧接着访问了页面 5 的次数为 B,那么 B/A 就是 3-5 的页面单跳转化率。

2)统计页面单跳转化率意义

产品经理和运营总监,可以根据这个指标,去尝试分析,整个网站,产品,各个页面的表现怎么样,是不是需要去优化产品的布局;吸引用户最终可以进入最后的支付页面。

数据分析师,可以此数据做更深一步的计算和分析。

企业管理层,可以看到整个公司的网站,各个页面的之间的跳转的表现如何,可以适当调整公司的经营战略或策略。

3)需求详细描述

在该模块中,需要根据查询对象中设置的Session过滤条件,先将对应得Session过滤出来,然后根据查询对象中设置的页面路径,计算页面单跳转化率,比如查询的页面路径为:3578,那么就要计算3-55-77-8的页面单跳转化率。

需要注意的一点是,页面的访问是有先后的,要做好排序。

1234567

1-2/ 1 2-3/2 3-4/3 4-5/4 5-6/5 6-7/6

4)需求分析

用户行为数据采集模拟

需求实现

1)代码实现

 

posted @   莲藕淹  阅读(843)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
点击右上角即可分享
微信分享提示