摘要: 用户画像(UserProfile) 也叫用户信息标签化、客户标签;从电商的角度看,根据你在电商网站上所填的信息和你的行为,可以用一些标签把你描绘出来,描述你的标签就是用户画像。 构建用户画像技术 用户画像:基本属性、购买能力、行为特征、社交网络、心理特征、兴趣爱好 行为建模:文本挖掘、自然语言处理、 阅读全文
posted @ 2018-07-26 18:14 静悟生慧 阅读(634) 评论(0) 推荐(0) 编辑
摘要: Hive虽然强大,但是我们遇到的业务需求必定是千奇百怪的。 在做日志解析的时候,我们会遇到访客,和访次的概念。 对于在2个小时之内的访问,我们认为是访问一次,对于两个小时之外的访问,我们认定是再次访问。 也就是是说,最新一次访问,与上一次访问之间间隔超过2个小时,则算是第二次访问。 用Hive来做过 阅读全文
posted @ 2018-07-26 18:01 静悟生慧 阅读(926) 评论(0) 推荐(0) 编辑
摘要: --Hive中日期函数总结: --1.时间戳函数 --日期转时间戳:从1970-01-01 00:00:00 UTC到指定时间的秒数 select unix_timestamp(); --获得当前时区的UNIX时间戳 select unix_timestamp('2017-09-15 14:23:0 阅读全文
posted @ 2018-07-26 16:00 静悟生慧 阅读(469) 评论(0) 推荐(0) 编辑
摘要: Expression not in GROUP BY key ‘ xxx’ 遇到这么一个需求,输入数据为一个ID对应多个name,要求输出数据为ID是唯一的,name随便取一个就可以。 执行以下hive ql语句: 1 2 3 4 5 6 SELECT sid, class_id FROM tabl 阅读全文
posted @ 2018-07-26 12:34 静悟生慧 阅读(5295) 评论(0) 推荐(0) 编辑