摘要: 基于python函数的udf日期处理函数 1、基于最近在学习python,就是试试用python进行一下的日期处理udf函数的输出,亲测可以上传去到hive中使用。后面开始学习使用python爬虫抓取黄色网页,和试试骗一下阅读量(笑)。最后,再去搞搞算法和机器学习。突然觉得自己搞得挺杂的。没办法,谁 阅读全文
posted @ 2017-10-31 19:09 Yuppy在学习的路上 阅读(1344) 评论(0) 推荐(0) 编辑
摘要: 由于项目需要获取(本季度的的发生额总和)/(本季度经历的天数)的数据(还有月均,年均的数据)。 判断季度的时候是一个难点,开始的时候写了一堆case when 来判断月份,后来写着写着发现,这样也太笨了。于是就开始想办法。 突然灵机一动,一个季度都是以3个月份为一个体的。何不先算出本日是第几季度,然 阅读全文
posted @ 2017-11-01 10:03 Yuppy在学习的路上 阅读(6660) 评论(0) 推荐(0) 编辑
摘要: 最近有同事问了我一个关于数据处理的面试题,“如何在一张业务数据表中判断客户是否连续经营了三天”。当时给出的答案是如果是增量计算的话,只要每天把前三天的数据找出来,按客户,按日期GROUP BY一下,然后再看看COUNT是否等于3就行了。如果要考虑处理历史数据的话,就可能需要建一个每天对应前三天的临时 阅读全文
posted @ 2017-10-29 21:28 Yuppy在学习的路上 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 从纯传统bi转型过来的技术顾问,比较有优势的是对业务的熟悉,对数据有敏感度,熟悉数据模型。但是长年累月基本都是用sql处理问题。目前还没有经历过sql解决不了的问题,一个sql解决不了就用临时表,几个sql解决(笑)。虽然不是最佳实现。但目前还都能凑合应付,但咱不能就此停步不前吧?整合这段时间项目有 阅读全文
posted @ 2017-10-29 21:25 Yuppy在学习的路上 阅读(929) 评论(0) 推荐(0) 编辑
摘要: 写在张文章时,差点辣死我了。把sentry数据库密码搞掉了,导致hive,impala,hue都挂了。此事要引以为戒,以后要小心操作了。 a) 在cloudera上添加Sentry服务 b) 选中Sentry服务并继续 c) 使用集群主机Master节点作为Sentry Sever服务器(Gatew 阅读全文
posted @ 2016-12-05 14:00 Yuppy在学习的路上 阅读(2505) 评论(0) 推荐(0) 编辑
摘要: HBASE概念: HBASE是一个分布式架构的数据库,通过对数据进行多层的分块打散储存。从而改写传统数据库的储存能力和读取速度。 HBASE的集群服务器: HBASE的集群主要分为Zookeeper集群,Master集群,RegionSever集群。 Zookeeper集群:储存Table的Regi 阅读全文
posted @ 2016-10-28 10:06 Yuppy在学习的路上 阅读(339) 评论(0) 推荐(0) 编辑
摘要: Hadoop(MapReduce&HDFS) 1.学习目的(前言) 在从业了六年IT生涯里,做个实施顾问、业务顾问、BA需求分析师、项目经理,现在重新定位自己,在新公司做起了开发顾问,虽然经历过很多转折、跨度也有点大。但是抓住了机会,开始接触大数据行业了。虽然目前工作中的都是使用Hive SQL进行 阅读全文
posted @ 2016-10-21 11:07 Yuppy在学习的路上 阅读(22270) 评论(1) 推荐(0) 编辑