2013年4月19日

Hive实现用户访问路径还原

摘要: 今天某位仁兄给了一道Hive的题目hive里有个表存储了 (用户ID) (点击时间) (点击网址) 输出 用户ID,点击顺序,from url ,to url。 其中点击顺序是每个id执行按时间排序后的顺序号,from url为上一次点击的网址,to url 为当次点击的网址。 顺序号为1的时候from url 为空就行了 1.实现基于纯Hive SQL的ETL过程2.实现一个能加速上述处理过程的Hive Generic UDF,并给出使用此UDF实现ETL过程的Hive SQL按照俺的理解,这个应该做UDAF跟UDTF结合比较容易于是就着手写了一些代码Part.1:View Code... 阅读全文

posted @ 2013-04-19 15:37 JueFan_C 阅读(746) 评论(0) 推荐(0) 编辑

导航